반응형
빅데이터 탐색
1. 데이터 전처리
데이터 정제
결측값을 채우거나 이상값을 제거하는 과정을 통해 데이터의 신뢰도를 높이는 작업
- 데이터 정제 절차
- 오류 원인 분석
- 결측값 : 누락, 중심 경향값넣기로 처리 가능
- 노이즈 : 일정범위 중간값 대체
- 이상값 : 하한,상한값 대체
- 대상 선정
- 정제방법 결정
- 정확한 데이터로 수정하거나 삭제하는 과정
- 삭제, 대체, 예측값 삽입 등으로 시행
- 오류 원인 분석
- 데이터 정제 기술
- 데이터 일관성유지를 위해 수행하는 정제 기법
- 변환 : 다양한 형태로 표현된 값을 형태 변환 - 코드변환, 형식변환(YYMMDD -> YY.MM.DD)
- Parsing : 정제규칙 적용위해 최소단위로 분할 - 주민등록번호를 생년월일, 성별로 분할
- 보강 : 추가 정보를 반영
- 데이터 정제 기술
- ETL : 추출, 가공 하여 데이터 웨어하우스 및 데이터 마트에 저장하는 기술
- 맵리듀스 : 데이터 세트 분산, 병렬컴퓨팅 처리 혹은 생성 하기위한 프레임워크, 키-값 쌍으로 구성, 배치 형태 처리방식으로 많은 데이터 처리시 느림
- 스파크/스톰 : 인메모리 기반 데이터 처리방식, 맵리듀스기반 성능개선, 머신러닝 가능
- CEP : 실시간 발생 이벤트 처리에 대한 결괏괎 수집 처리, 로그 IoT 센싱데이터 등 실시간 데이터 처리 기술
- Pig : 대용량 데이터 집합분석 플랫폼, 피그 라틴이라는 자체언어 제공
- Flume : 로그데이터 수집하고 처리하는 기법, 실시간에 근접하게 데이터를 전처리, 수집
- 데이터 일관성유지를 위해 수행하는 정제 기법
- 데이터 세분화
- 계층적방법 : 사전에 군집수를 정하지 않고 단계적으로 결과 산출
- 응집 분석법 : 각 개체를 단계적으로 유사한 소집단들을 합쳐 새로운 소집단 구성
- 분할 분석법 : 전체 집단으로 시작하여 유사성 떨어지는 객체들 분리
- 비 계층적 방법 : 군집을 위한 소집단의 개수 정해놓고 배정시키는 방법
- 인공신경망 모델
- K-평균 군집화 : K개의 소집단의 중심좌표 이용 객체간의 거리 산출 가장 근접한 소집단 배정후 해당소집단의 중심좌표를 업데이트 하는 방식
- 계층적방법 : 사전에 군집수를 정하지 않고 단계적으로 결과 산출
데이터 결측값 처리
- 데이터 결측값 : 입력이 누락된값, NA, 9999, Null 등
- 종류
- 완전무작위 결측 (MCAR) : 아무런 상관없는 결측값
- 무작위 결측 (MAR) : 특정변수와 연관 but 결과에는 영향 x, 변수로 설명가능
- ex) 여성들은 몸무게를 공개할 가능성적음
- 비 무작위 결측 : 누락된 값이 다른 변수와 연관있는 경우
- ex) 몸무게에 대한 응답이 몸무게 자체와 관련(많을수록 무응답)
- 처리절차
- 결측값 식별
- 결측값 부호화 NA, NaN, inf, NULL
- 결측값 대체
- 종류
- 데이터 결측값 처리 방법
- 단순 대치법 : 결측값을 그럴듯한 값으로 대체, 결측값을 가진 자료분석에 사용하기 쉬움
- 완전 분석법 : 불완전 자료를 모두 무시, 완전 관측된 자료만 사용, 분석쉽지만 부분적으로 관측된 자료가 무시되어 효율성 상실, 타당성 문제
- 평균 대치법 : 관측 실험값으로 얻어진 평균값으로 결측값대체, 비조건부/조건부
- 단순 확률 대치법 : 평균대치법에서 확률을 부여하여 대치하는 방법
- 핫덱 대체 : 무응답을 비슷한 성향의 응답자로 대체, 표본조사에서 사용
- 콜드덱 대체 : 핫덱과 비슷 but 외부나 이전연구에서 가져옴
- 혼합방법 : 회귀, 핫덱 등을 섞음
- 다중 대치법 : 단순대치법을 m번 반복함
- 적용방식 : 한번이상 각각 다른값으로 대치하여 여러개 표본을 구함
- 대치 : 예측분포 또는 사후분포에서 추출된 값 사용, 베이지안 방법
- 분석 : D개의 대치표본으로 각각의 원하는 분석 수행
- 결합 : 모수의 점추정과 표준오차의 추정치를 D개 구한후 결합
- 여러번의 대체 표본으로 대체 내 분산과 대체 간 분산을 구해 추정치의 총 분산을 추정하는 방법
- 적용방식 : 한번이상 각각 다른값으로 대치하여 여러개 표본을 구함
- 단순 대치법 : 결측값을 그럴듯한 값으로 대체, 결측값을 가진 자료분석에 사용하기 쉬움
데이터 이상값 처리
- 데이터 이상값 : 범주에서 많이 벗어난 값
- 발생원인
- 데이터 입력오류
- 측정오류
- 실험 오류 : 실험 조건 동일하지 않을 시
- 고의적인 이상값 : 일부러 사람들이 다르게 적는 경우
- 표본추출 에러 : 데이터 샘플링 과정에서의 에러
- 검출 방법
- 개별 데이터 관찰
- 통곗값
- 시각화
- 머신러닝 기법 : 데이터 군집화를 통한 이상값 검출 (K-평균 알고리즘)
- 마할라노비스 거리 이용 : 데이터 분포를 고려한 거리측도, 얼마나 벗어났는지 측정
- LOF(Local Outlier Factor) : 밀도의 상대적인 비교를 통해 이상값을 탐색
- iForest(Isolation Forest) : 거리나 밀도에 의존 x, 의사결정나무 통해서
- 통계기법 이용한 이상값 검출 방법
- ESD : 평균으로부터 3표준편차 떨어진 값을 이상값으로 판단
- 기하평균 활용 : 기하평균으로부터 2.5 표준편차
- 사분위 수 이용 : 1,3 사분위를 기준으로 (Q3-Q1)의 1.5배이상 떨어진 값
- Z-Score : 정규분포를 따른는 관측치들이 얼마나 떨어져 있는지
- 딕슨의 Q 검정 : 오름차순 정렬데이터에서 범위에 대한 관측간의 차이 비율을 활용, 데이터 수가 30개 미만인 경우
- 그럽스 T-검정 : 정규분포를 만족하는 단변량 자료에서 검정하는 방법
- 카이제곱 검정 : 정규분포 만족하나 자료의 수가 적은 경우에 사용하는 방법
- 발생원인
- 통계기법 이요한 이상값 검출
- 시각화를 이용한 데이터 이상값 검출
- 확률 밀도함수 : 확률변수의 분포를 보여주는 함수
- 히스토그램 : 막대그래프
- 시계열 차트 : 일반 주식 차트라고 생각하면 될듯
- 머신 러닝 기법을 이용한 데이터 이상값 검출
- K개의 클러스터로 묶어 분산을 최소화 하는 방식
- 마할라 노비스거리를 이용한 이상값 탐색
- 데이터의 분포를 고려한 거리측도, 관측치가 평균으로부터 벗어난 정도 측정
- 모든 변수간에 선형관계 만족해야함
- LOF
- 밀도를 이용한 방법
- iForest
- 의사결정나무 이용 (자료구조 트리 생각하면됨)
- 데이터의 평균적인 관측치와 벌리 떨어진 관측치 일수록 적은 횟수의 공간 분할을 통해 고립 시킬 수 있음
- 적은 횟수로 말단 노드에 도달하는 관측치 일수록 이상값일 가능성이 큼
- 시각화를 이용한 데이터 이상값 검출
- 데이터 이상값 처리
- 삭제
- 이상값을 제외하는 것은 현실자료를 제대로 반영하는 방법으로 적절하지 않을 수 있음
- 극단값을 절단하기도함
- 기하평균을 이요한 제거
- 하단 상단 %를 이용한 제거
- 대체법 (Imputation)
- 하한값 상한값으로 이상값을 대체하는 방법
- 이상값을 평균이나 중앙값으로 대체하는 방법
- 변환
- 극단적인 값으로 인해 이상값 발생시 자연로그 취해서 값을 감소, 즉 실젯값을 변형
- 박스 플롯 해석을 통한 이상값 제거
- 사분위 수를 이용해서 제거하는 방법 사용
- 하위경계 : 제 1사분위에서 1.5 IQR을 뺀 위치
- 최솟값 : 하위 경계 내의 관측치의 최솟값
- 제 1 사분위 (Q1) : 자료들의 하위 25%의 위치를 의미
- 제 2 사분위 (Q2) : 자료들의 50%의 위치로 중위수를 의미, 두꺼운 막대로 가시성 높임
- 제 3 사분위 (Q3) : 자료들의 하위 75%의 위치를 의미
- 최댓값 : 상위 경계 내의 관측치의 최댓값
- 상위 경계 : 제 3 사분위에서 IQR의 1.5배 위치
- 수염 : Q1, Q1로 부터 IQR의 1.5배 내에 있는 가장 멀리 떨어진 데이터까지 이어진 선
- 이상값 : 수염보다 바깥쪽에 데이터 존재하는 값
- 분류하여 처리
- 이상값이 많을 경우에 사용하는 방법 , 그룹화를 시킴
- 삭제
변수 선택
- 변수 : RDBMS 에서 속성(row)이라고 부르는 것을 머신러닝에서는 변수라고 한다.
- 명칭
- 알려진값 : 변수, 속성, 예측변수, 차원, 관측치수, 독립변수
- 예측값 : 라벨, 클래스, 목푯값, 반응, 종속변수
- 명칭
- 변수의 유형
- 인과관계
- 독립변수 : 다른변수 영향 x
- 종속변수 : 영향 받는 변수, 관측값
- 변수 속성
- 범주형 : 범위와 순서가 있는변수
- 명목형 : 크기와 상관없음 이름만 부여
- 순서형 : 순서에 따른 의미 부여
- 수치형 : 수치로 표현되는 변수
- 이산형 : 하나하나 셀수 있는 경우
- 연속형 : 모든값을 가지느 경우
- 범주형 : 범위와 순서가 있는변수
- 연속형 자료라면 공변량 이라하고 범주형 자료라면 요인이라고 한다.
- 인과관계
- 변수 선택
- 차원의 간소화 하고 과적합을 줄여 일반화 해주는 장점
- 과적합 : 현재 모델만 최적화 되어있어 새로운 값이 들어올때 오차 커짐
- 선택기법
- 필터 기법 : 통계적 특성 이용
- 래퍼 기법 : 일부만 모델링하고 그결과를 확인하는 작업 반복
- 임베디드 기법 : 모델 자체에 변수 선택이 포함된 기법
- 필터기법
- 계산속도가 빠르고 변수간 상관관계 알아내는데 적합, 전처리과정에 사용
- 정보소득 : 정보소득이 높은 속성 선택 데이터 잘 구분되게
- 카이제곱 검정 : 관찰 빈도와 기대되는 빈도의 의미 분석
- 피셔 스코어 : 최대 가능성 방정식을 풀기 위해 사용되는 뉴턴의 법칙
- 상관계수 : 두 변수 사이의 통계적 관계를 표현
- 래퍼 기법(Wrapper Method)
- 예측 정확도 측면에서 가장 좋은 하위집합 선택
- 그리디 알고리즘 : 최적의 길을 찾아가는 방식
- 예측정확도가 높음
- 전진선택법 : 모형 향상시키는 변수 하나씩 추가, 향상 멈출시 추가 중단
- 후진제거법 : 가장 적은 영향 주는 변수 하나씩 제거
- 단계적방법 : 혼합
- RFE : SVM을 사용하여 재귀적으로 제거하는 방법
- SFS : 그리디 알고리즘으로 특성 변수를 하나씩 추가하는 방법
- 유전 알고리즘
- 단변량 선택 : 하나의 변수 선택법
- mRMR : 특성 변수의 중복성을 최소화 하는 방법
- 임베디드 기법
- 모델의 정확도에 기여하는 변수를 학습
- 좀더 적은 계수를 가지는 회귀식을 찾는 방향으로 제어
- LASSO : 가중치의 절댓값의 합을 최소화 하는 것을 제약조건, L1-norm
- L1-norm : 벡터 p, q 각원소들 차이의 절대값
- Ridge : 가중치의 제곱 합을 최소화 하는것
- L2-norm : p, q의 직선거리
- Elastic Net : 라쏘와 릿지를 선형 결합
- SelectFromModel : 의사결정 나무 기반 알고리즘에서 변수 선택
차원축소
- 차원축소 : 데이터를 최대한 효과적으로 사용하기 위해 차원 축소, 설명변수만 사용하기 때문에 비지도 학습 머신러닝 기법
- 특징
- 데이터 변수들의 정보 최대한 유지
- 변수들사이의 관계 파악해서 새로운 변수를 만들어서 설명
- 완결된 분석기법보다는 다른 분석과정을 위한전단개, 시각화등의 목적으로 사용
- 고차원보다 변환된 저차원으로 학습할 경우 머신러닝에 용의
- 시각화가 쉬움
- 기법
- 주성분 분석 (PCA)
- 공분산행렬이나 상관행렬 이용
- 정방행렬에만 사용
- 고차원 공간의 표본들을 선형 연관성이 없는 저차원 공간으로 변환
- 특이값 분해 (SVD)
- 행렬데이터에서 특이값을 추출하여 데이터를 축약
- 요인분석
- 잠재적변수가 존재한다고 가정
- 잠재적 요인을 도출하고 데이터 안의 구조 해석, 설문조사 등에서 많이 사용
- 독립성분분석(ICA)
- 다변량의 신호를 통계적으로 독립적인 하부 성분으로 분리하여 차원 축소
- 비정규 분포를 따르게 되는 차원축소 기법
- 다차원 척도(MDS)
- 개체들 사이의 유사성, 비유사성을 측정 2차원 혹은 3차원 공간의 점으로 표현
- 주성분 분석 (PCA)
- 활용분야
- 정보결과 , 시각화, 학습모델생성
- 탐색적데이터 분석
- 공통요인 추출
- 특징 패턴추출 등
- 특징
파생변수 생성
- 파생변수 ( Derived Variance ) : 새롭게 재정의한 변수
- 생성방법
- 단위변환
- 표현형식 변환 : 남,여 데이터를 0,1로 변환
- 요약 통계량 변환
- 변수 결합
- 생성방법
변수 변환
- 변수 변환 : 불필요한 변수 제거, 변수 반환, 새로운 변수 생성
- 방법
- 단순 기능 변환 : 로그변환, 역수변환 등
- 비닝 : 기존의 데이터를 범주화 (점수를 상,중,하로 나눔)
- 정규화 : 데이터를 특정구간으로 바꾸는 척도법, 최대-최소정규화, Z-스코어
- 표준화 : 데이터를 0을 중심으로 양쪽으로 데이터 분포
- 단순 기능 변환
- 로그 : 변수의 분포를 변경하기 위해, 변수들의 분포가 오른쪽으로 기울어진것을 감소
- 제곱,세제곱,루트
- 비닝 : bin으로 분할계산, 데이터 평활화에서도 사용, 범주화 사용
- 변수 변환 사례
- 매출, 판매수량, 가격, 가구소득 -> 로그
- 지리적 거리 -> 역수, 로그
- 효용에 근거한 시장 점유율 - > e^z / 1+e^x
- 우측으로 꼬리가 긴 분포 -> 제곱근, 로그
- 좌측으로 꼬리가 긴 분포 -> 제곱
- 방법
불균형 데이터 처리
- 불균형 데이터 처리 : 타깃 데이터의 수가 매우 극소수인 경우 시행
- 언더 샘플링 : 작은 데이터에 맞추겠다
- 다수 클래스의 데이터 일부만 선택하여 데이터 비율 맞춤
- 데이터 소실 매우 큼, 정상 데이터를 잃을 수 있음
- 랜덤언더 샘플링 : 무작위로 다수클래스 데이터 일부만 선택
- ENN : 소수 클래스 주위에 인접한 다수 클래스 제거하여 데이터의 비율 맞춤
- 토멕링크 : 토멕링크는 클래스를 구분하는 경계선 가까이에 존재하는 데이터로 이를 제거
- CNN : 다수의 클래스에 밀집된 데이터가 없을 때 까지 데이터 제거
- OSS : 토멕링크와 CNN 장점을 섞음, 토멕링크 제거후 CNN으로 밀집제거
- 오버 샘플링 : 큰 데이터에 맞추겠다
- 데이터를 생성, 복제하여 맞춤, 과적합일어날 수 있음
- 랜덤 오버 샘플링 : 무작위로 복제하여 데이터 비율 맞춤
- SMOTE : 소수 클래스에서 중심이 되는 데이터와 주변데이터사이에 가상의 직선 만들고 그 위에 추가하는 방법
- Borderline - SMOTE : 경계선에서 SMOTE를 적용하는 방법
- ADASYN : 모든 소수 클래스에서 다수 클래스의 관측비율을 계산하여 SMOTE 적용
- 임계값 이동 : 임곗값을 데이터가 많은쪽으로 이동 (귀무가설을 기각하는 값)
- 앙상블 기법
- 여러가지 모형들의 예측 분류결과를 종합하여 의사결정에 활용
- 여러가지를 조합, 가장 많은 클래스를 적용
- 언더 샘플링 : 작은 데이터에 맞추겠다
2. 데이터 탐색
데이터 탐색 개요
- 데이터 탐색
- 탐색적 데이터 분석 (EDA) - 4R
- 저항성 (Resistance)
- 수집된 자료에 오류, 이상값이 있어도 영향 적게 받는 성질
- 저항성이 있으면 부분적 변동에 민감하지 않음
- 저항성이 큰 통계적데이터 이용해야 한다.
- 잔차 해석 (Residual)
- 주경향으로 부터 얼마나 벗어난 정도
- 잔차를 통해 보통과 다른 특징 탐색
- 왜 존재하는지 탐색
- 자료 재표현
- 데이터분석과 해석을 단수화 하기위해 변수를 적당한 척도로 변환
- 대칭성, 선형성, 안정성등을 파악할 수 있음
- 현시성(Graphic Representation)
- 데이터 시각화, Display, Visulization
- 데이터 분석 결과를 쉽게 이해할 수 있도록 시각적으로 표현, 전달
- 저항성 (Resistance)
- 개별 변수 탐색 방법
- 범주형 데이터 : 명목척도와 순위 척도에 대한 데이터 탐색, 막대형 그래프
- 수치형 데이터 : 등간 척도와 비율 척도에 대한 데이터 탐색, 박스플롯, 히스토그램
- 양적데이터인 명목(값에 서열 없음) / 순위(값에 서열 있음)
- 질적 데이터인 등간( 임의로 지정한 단위로 측정느낌)/ 비율
- 다차원 데이터 탐색 방법
- 범주-범주 : 빈도수와 비율 활용 데이터간의 연관성 분석 , 막대형그래프
- 수치-수치 : 산점도와 기울기로 상관성 분석
- 범주-수치 : 주로 박스플롯 이용하여 시각화함
- 탐색적 데이터 분석 (EDA) - 4R
상관관계 분석
- 상관관계 분석 : 상호연관성의 존재여부 분석
- 양,음 없음 의 종류로 이루어져 있음
- 표현방법
- 산점도
- 공분산
- 공분산은 2개의 변수 사이의 상관정도
- 공분산 C>0 하나가 상승하면 다른 하나도 상승, C<0 이면 반대
- 상관관계의 상승 혹은 하강하는 경향을 이해할 수 있따.
- 선형관계의 강도를 나타내지는 못함
- 상관계수 : 두 변수 사이의 연관성을 수치적으로 객관화 -1 <= r <= 1
- 분류
- 변수에 개수에 따라서 단순, 다중 (2개 ,3개이상)
- 속성에 따라서
- 수치적데이터 - 피어슨 상관계수로 분석, 분산이 동알하다는 전제조건
- 순서적 데이터 - 스피어만 순위 상관분석
- 명목적 데이터 - 카이제곱 검정 (교차분석), 상관계수 의미 없음
기초 통계량 추출 및 이해
- 중심 경향성의 통계량
- 평균 - 이상값에 의해 값의 변동이 심하게 변할 수 잇음
- 중위수 (Median) - 딱 중앙의 값, 짝수일때는 중간 2값의 평균으로 구함
- 최빈값 : 가장 많이 관측되는 수
- 산포도의 통계량
- 범위 : 최대와 최소의 차이
- 분산 : 평균으로부터 흩어진정도
- 모분산과 표본분산의 공식은 넣고 외우자
- 표준편차 : 분산의 양의 제곱근
- 모표준편차와 표본표준편차 공식도 외우자
- 변동계수 (CV)
- 측정 단위가 서로 다른 자료의 흩어진 정도 비교할때 쓰임
- 상대 표준편차라고도 함
- 표준편차를 표본평균으로 나눈값, 값이 클수록 상대적 차이 큼
- 사분위 수 범위 (IQR)
- 자료들의 중간 50%에 포함되는 자료의 산포도
- 제 1사분위수 Q1과 제 3 사분위 수 Q3사이의 차이다
- 구하는 방법
- 오름차순정렬
- 중위수 구함
- 중위수 기준으로 Q1, Q3 를 각각 구함
- IQR= Q1-Q3
- 참고 : Q1하위 25% Q3 상위 25%
- 데이터 분포를 나타내는 통계량
- 왜도 : 데이터 분포가 정규 분포로 부터 오른쪽 혹은 왼쪽으로 치우친 정도
- 왼쪽 편포 : 평균<중위수<최빈값, 왼쪽 꼬리 분포의 왜도<0
- 오른쪽 편포 : 최빈값<중위수<평균, 오른쪽 편포의 왜도 >0
- 첨도 : 정규분포로 부터 위 아래쪽의 뾰족한 정도
- 왜도 : 데이터 분포가 정규 분포로 부터 오른쪽 혹은 왼쪽으로 치우친 정도
시각적 데이터 탐색
- 히스토그램 : 자료분포를 직사각형 형태로 보여줌
- 특징
- 가로축은 수치형 데이터
- 막대는 서로 붙어있음
- 막대 넓이는 일정
- 막대형 그래프
- 막대의 길이로 표현
- 가로축은 수치형 데이터가 아니어도 됨
- 막대는 서로 떨어져 있음
- 넓이도 같지 않을 수 있음
- 특징
- 박스플롯 : 상자수염그림, 상자그림등으로 불림, 집함의 범위와 중앙값을 빠르게 확인 가능, 이상값 확인 가능
- 박스플롯 구성요소는 이전에 다룬바가 있으므로 참고
- 산점도 : 가로축과 세로축의 좌표평면상에서 점들을 시각화
시공간 데이터 탐색
- 시공간 데이터 : 공간적 객체에 시간의 개념이 추가, 위치나 형상이 변하는 데이터
- 특징 : 거리속성과 시간속성 가지고 잇음
- 이산적 변화 : 수집주기가 일정하지 않음, 시간에 따라 데이터 추가
- 연속적 변화 : 일정한 주기 연속적 표현, 함수를 이용하여 표현
- 타입
- 포인트타입 : 하나의 노드로 구성
- 라인 타입 : 서로 다른 두 개의 노드와 두 노드를 잇는 세그먼트로 구성
- 폴리곤 타입 : n개의 노드와 n개의 세그먼트로 구성
- 폴리라인 타입 : n개의 노드와 n-1의 세그먼트로 구성 (참고로 둘다 n은 3이상)
- 특징 : 거리속성과 시간속성 가지고 잇음
- 시공간 데이터 탐색 절차
- 주소를 행정구역으로 변환
- 엑셀, 문자열 처리함수를 이요해 쉽게 변환
- 공백문자를 기준으로 분할
- split, find, left, mid
- 주소를 좌표계로 변환
- 위도와 경도로 변환
- 지오 코딩 서비스 이용
- 행정구역 및 좌표계를 지도에 표시
- 코로플레스 지도 : 수치에 따라 지정한 색상으로 크기 표현
- 카토 그램 : 데이터값에 따라 지도의 면적이 왜곡되는 지도, 변량비례도
- 버블 플롯 맵 : 버블차트에 위도와 경도정보를 적용하여 나타냄
- 주소를 행정구역으로 변환
다변량 데이터 탐색
- 다변량 데이터
- 변량 : 조사 대상의 특징, 성질 을 숫자나 문자로 나타낸것
- 변량 데이터의 유형 : 종속변수(Y)에 의해 결정 ,일변량, 이변량, 다변량
- 일변량 - 기술통계, 그래프 통계
- 이변량 - 두개의 특성을 동시 관측, 두 변수 사이의 관계 밝히는것이 대상
- 다변량 - 시각적으로 자료 탐색
- 다변량 데이터 탐색도구
- 산점도 행렬 : 산점도를 행렬로 나타내 변수간의 연관성 표현
- 그림행렬 : 최대 20개의 변수 사용 가능, 변수가 여러개 있을때 두개씩 확인 용의
- 개별 Y대 개별 X 산점도 행렬
- 별 그림 : 육각형 점수 매기는거 생각하면 됨
- 산점도 행렬 : 산점도를 행렬로 나타내 변수간의 연관성 표현
비정형 데이터 탐색
- 비정형 데이터
- 유형 : 비정형, 반정형 - 텍스트, 이미지, XML, JSON, HTML
- 탐색방법
- 텍스트 탐색 - 스크립트 파일 형태일 경우 파싱한후 탐색
- 동영상, 이미지 - 응용소프트웨어 이용
- XML, JSON, HTML - 파서를 이용 파싱한 후 탐색
- 탐색플랫폼
- HDFS, 맵리듀스, 주키퍼, Avro, Hive, Pig, HCatalog
3. 통계기법 이해
기술통계 - 데이터 요약
- 기초 통계량
- 평균 - 표본평균, 모평균, 표본평균과 구분하기위해 μ를 모평균으로 사용
- 중위수 - 중앙값
- 최빈수 - 가장많이 나오는 값
- 범위
- 분산
- 표본편차
- 표준오차
- 표본 평균의 표본 추출 분포에 대한 표준 편차
- 표본들에 대한 평균 구하고 전체 평균을 다시 구한값으로 전체 평균과 비교
- 분포
- 상관분석
- 피어슨 상관계수 공식 보고 이해하기
- 스피어만 순위 상관계수
- 카이 검정 제곱
- 회귀분석 : 하나이상의 독립변수들이 종속변수에 미치는 영향을 추정
- 종류: 단순회귀 ,다중회귀
- 적합성 평가 - 전제조건
- 선형성 : 선형관계가 존재
- 등분산성 : 잔차들은 같은 분산
- 독립성 : 잔차와 독립변수의 값이 관련 x
- 비상관성 : 관측치들의 잔차들 거리 상관 x
- 정규성 : 정규분포 따름
- 독립변수 선택방법
- 후진 제거법 : 하나씩 변수들 제거
- 전진 선택법 : 하나씩 변수를 늘려나감
- 단계적 방법 : 절충안
- 분산 분석 : 분산비교로 얻은 F-분포 이용하여 가설 검정을 수행하는 방법
- 특징
- 검정 통계량인 F-검정 통계량 값은 집단 내 분산대비 집단간 분산이 몇배 더 큰지 나타내는 값으로 해석
- 복수의 집단 비교시, 분산을 계산하여 집단간의 통계적차이 유무 판정
- 종류 ( 종속변수의 평균 차이를 분석하는 방법 )
- 일원분산 : 독립1 종속1
- 이원분산 : 독립2 종속1
- 다변량 : 종속2 이상
- 공분산 : 연속형 외생변수가 종속변수에 미치는 영향제거 후 종속변수의 평균차이
- 특징
- 주성분 분석 (PCA) : 패턴을 간결하게 표현하는 주성분 변수를 선형결합으로 추출
- 특징
- 원래 변수정보를 축약한 변수
- 일부 성분에 의해 변수변동이 설명되는지 알아보는 분석방법
- 적은 변수로 요약, 분산의 최대량 설명
- 특징
- 판별 분석 : 판별규칙,함수를 만들고 다변량 기법으로 조사도니 집단에 대한 정보활용하여 개체가 어떤 집단인지 탐색
표본 추출
- 표본추출기법
- 단순 무작위 추출: 랜덤
- 계통 추출 : 일정한 간격으로 추출
- 층화 추출 : 여러 계층으로 추출, 계층간 동질적이고 외부간 이질적일때
- 군집 추출 : 군집으로 나누고 추출, 성질고려x
- 자료 측정
- 질적속성
- 명목 척도 : 단순 집단 분류
- 순서 척도 : 측정관계의 대소
- 양적속성
- 구간 척도 : 등간척도, 서열과 의미있는 이름 가짐
- 비율 척도 : 척도간 비율도 의미가 있는 척도
- 질적속성
확률 분포
- 확률분포 : 확률변수가 특정한 값을 가질 확률을 나타내는 분포
- 종류
- 이산확률 분포 : 이산확률변수 X가 가지는 확률분포
- 포아송 분포 : 주어진 시간 영역에서 발생횟수
- 베르누이 분포 : 성공 실패 중하나
- 이항분포 : 시행 확률이 p 일때 k번 성공할 확률
- 연속 확률 분포
- 정규분포
- 표준정규분포 ( Z- 분포)
- T-분포 : 정규분포의 평균 해석에 많이 쓰임, 모 표준편차 모를때 사용
- 카이제곱 분포 : K개의 독립적인 확률변수를 각각제곱해서 얻음 K는 자유도
- F-분포
- 이산확률 분포 : 이산확률변수 X가 가지는 확률분포
- 종류
표본 분포
- 표본 분포 : 모집단에서 추출한 크기가 일정한 표본이 가지는 추정량의 확률분포
- 통계량에 의해 모집단에 있는 모수를 추론한다.
- 용어
- 모집단 : 정보를 얻고자 하는 대상이 되는 집단 전체
- 모수 : 모집단의 특성을 나타내는 대푯값
- 통계량 : 표본에서 얻은 평균이나 표준 오차와 같은 값, 무작위 추출시 표본에 따라 달라지는 확률 변수
- 추정량 : 모수의 추정을 위해 구해진 통계량
- 표준편차 : 자료의 변동정도 σ, s 를 의미
- 표준오차 : 통계량의 변동정도, 평균을 낸 값들의 표준 편차를 표준오차라고 부름
- 표본 조사 용어
- 표본오차 : 모집단을 대표할 수 있는 표본 단위들이 조사대상으로 추출되지 못해서 발생
- 비표본오차 : 표본오차를 제외한 모든 오차, 부주의나 실수등의 이유
- 표본편의 : 모수를 작게 또는 크게 할때 생김, 확률화에 의해 최소화 하거나 제거 불가
- 참고) 확률화 - 모집단으로 부터 편의 되지 않은 표본을 추출하는 절차를 의미
- 표본 분포와 관련된 법칙
- 큰 수의 법칙 : 데이터를 많이 뽑을 수록 표본평균의 분산은 0에 가까워짐
- 중심 극한 정리 : 표본의 개수가 커지면 표본 분포는 정규분포에 근사
- 유형
- Z-분포 : 표본 통계량이 표본 평균일 때 이를 표준화 시킨 표본 분포
- T-분포 : 모집단이 정규 분포라는 정도만 알고, 모 표준편차는 모를때 사용하는 표본분포
- 카이제곱 분포 : k개의 서로 독립적인 표준 정규 확률변수를 각각 제곱한 다음 합하여 얻어지는 분포
- F-분포 : 표본 통계량이 두 독립 표본에서 계산된 표본 분산들의 비율일 때의 표본 분포
추론통계 - 점추정
- 점추정 : 표본의 정보로 부터 모집단의 모수를 하나의 값으로 추정하는 기법
- 점 추정 조건
- 불편성 : 모든 가능한 표본에서 얻은 추정량의 기댓값은 모집단의 모수와 차이가 없음
- 효율성 : 추정량의 분산이 작을수록 좋음
- 일치성 : 표본의 크기가 아주 커지면, 추정량이 모수와 거의 같아짐
- 충족성 : 추정량은 모수에 대하여 모든 정보를 제공
- 점 추정에 사용되는 통계
- 표본평균 : 모집단의 평균을 추정하기 위한 추정량, 확률 표본의 평균값
- 표본분산 : 모집단의 분상르 추정하기 위한 추정량
- 중위수
- 최반값
- 점 추정 조건
구간 추정
- 구간 추정 : 추정값에 대한 신뢰도를 제시하면서 범위로 모수를 추정하는 방법
- 구해진 구간 안에 모수가 있을 가능성의 크기가 주어져야 한다.
- 구간 추정 용어
- 신뢰수준 : 추정값이 존재하는 구간에 모수가 포함될 확률
- 신뢰구간 : 신뢰수준을 기준으로 추정된 통계적으로 유의미한 모수의 범위
가설 검정
- 가설 : 모집단의 특성, 특히 모수에 대한 가정 혹은 잠정적 결론, 귀무가설과 대립가설이 있다.
- 종류
- 귀무가설 (H0) : 현재까지 주장되어 온 것, 변화 혹은 차이가 없음을 나타냄
- 대립가설 (H1) : 표본을 통해 확실한 근거를 가지고 입증하고자 하는 가설, 연구가설
- 검정 : 모집단에 대한 통계적 가설을 세우고 표본을 추출하여 통계적 가설의 진위를 판단
- 절차
- p-value와 유의수준을 비교하여 귀무가설 혹은 대립가설을 채택하는 절차를 거치게 됨
- p-value < 유의수준 --> 귀무가설 기각, 대립가설 채택
- p-value > 유의수준 --> 귀무가설 채택, 대립가설 기각
- 방법
- 양측 검정 : 모수 θ에 대해서 표본 자료를 바탕으로 모수가 특정값 θ₀와 통계적으로 같은지 여부를 판단.
- 귀무가설 H₀: θ = θ₀, 대립가설을 H₁ : θ ≠ θ₀
- 단측 검정 : 큰지 작은지 여부 판단.
- 귀무가설 H₀: θ >= θ₀, 대립가설을 H₁ : θ < θ₀
- 귀무가설 H₀: θ <= θ₀, 대립가설을 H₁ : θ > θ₀
- 양측 검정 : 모수 θ에 대해서 표본 자료를 바탕으로 모수가 특정값 θ₀와 통계적으로 같은지 여부를 판단.
- 검정의 오류 : 표본에 기반하기 때문에 항상 오류 존재할 수 있다.
- 제1종 오류 : 귀무가설이 참인데 잘못하여 기각하는경우
- 유의수준 : 제1종 오류를 범할 최대 허용 확률 α
- 신뢰수준 : 귀무가설이 참일때 이를 참이라고 판단하는 확률 (1-α)
- 제2종 오류 : 귀무가설이 참이 아닌데 잘못하여 이를 채택하게 되는 오류
- 베타 수준 : 제 2종 오류를 범할 최대 허용확률을 의미 β
- 검정력 : 귀무가설이 참이 아닌 경우 이를 기각할 수 있는 확률 (1-β)
- 일반적으로 1종 오류의 영향이 2종 오류의 영향보다 크므로 α를 기준으로 가설검정 수행
- 제1종 오류 : 귀무가설이 참인데 잘못하여 기각하는경우
- 검정 통계량
- 가설 검정의 대상이 되는 모수를 추론하기 위해 사용되는 표본 통계량
- 귀무가설이 참이라는 전제하에 모집단으로부터 추출된 확률표본의 정보를 이용하여 계산
- p-value
- 귀무가설이 참이라는 가정에 따라 주어진 표본 데이터를 희소 또는 극한값으로 얻을 확률
- 귀무가설이 참일때 귀무가설을 기각하게 되는 제1종 오류를 범할 확률로 보기도 함
- 종류
2. 데이터 탐색
3. 통계기법 이해
반응형
'공부 > 빅데이터 분석기사' 카테고리의 다른 글
빅데이터 분석기사 필기 합격 후기 (비전공자) (4) | 2021.05.07 |
---|---|
빅데이터 모델링 (0) | 2021.04.19 |
빅데이터 분석 기획 (0) | 2021.04.19 |