본문 바로가기

공부/빅데이터 분석기사

빅데이터 탐색

반응형

빅데이터 탐색

1. 데이터 전처리

데이터 정제

결측값을 채우거나 이상값을 제거하는 과정을 통해 데이터의 신뢰도를 높이는 작업

  • 데이터 정제 절차
    1. 오류 원인 분석
      • 결측값 : 누락, 중심 경향값넣기로 처리 가능
      • 노이즈 : 일정범위 중간값 대체
      • 이상값 : 하한,상한값 대체
    2. 대상 선정
    3. 정제방법 결정
      • 정확한 데이터로 수정하거나 삭제하는 과정
      • 삭제, 대체, 예측값 삽입 등으로 시행
  • 데이터 정제 기술
    • 데이터 일관성유지를 위해 수행하는 정제 기법
      • 변환 : 다양한 형태로 표현된 값을 형태 변환 - 코드변환, 형식변환(YYMMDD -> YY.MM.DD)
      • Parsing : 정제규칙 적용위해 최소단위로 분할 - 주민등록번호를 생년월일, 성별로 분할
      • 보강 : 추가 정보를 반영
    • 데이터 정제 기술
      • ETL : 추출, 가공 하여 데이터 웨어하우스 및 데이터 마트에 저장하는 기술
      • 맵리듀스 : 데이터 세트 분산, 병렬컴퓨팅 처리 혹은 생성 하기위한 프레임워크, 키-값 쌍으로 구성, 배치 형태 처리방식으로 많은 데이터 처리시 느림
      • 스파크/스톰 : 인메모리 기반 데이터 처리방식, 맵리듀스기반 성능개선, 머신러닝 가능
      • CEP : 실시간 발생 이벤트 처리에 대한 결괏괎 수집 처리, 로그 IoT 센싱데이터 등 실시간 데이터 처리 기술
      • Pig : 대용량 데이터 집합분석 플랫폼, 피그 라틴이라는 자체언어 제공
      • Flume : 로그데이터 수집하고 처리하는 기법, 실시간에 근접하게 데이터를 전처리, 수집
  • 데이터 세분화
    • 계층적방법 : 사전에 군집수를 정하지 않고 단계적으로 결과 산출
      • 응집 분석법 : 각 개체를 단계적으로 유사한 소집단들을 합쳐 새로운 소집단 구성
      • 분할 분석법 : 전체 집단으로 시작하여 유사성 떨어지는 객체들 분리
    • 비 계층적 방법 : 군집을 위한 소집단의 개수 정해놓고 배정시키는 방법
      • 인공신경망 모델
      • K-평균 군집화 : K개의 소집단의 중심좌표 이용 객체간의 거리 산출 가장 근접한 소집단 배정후 해당소집단의 중심좌표를 업데이트 하는 방식

데이터 결측값 처리

  • 데이터 결측값 : 입력이 누락된값, NA, 9999, Null 등
    • 종류
      • 완전무작위 결측 (MCAR) : 아무런 상관없는 결측값
      • 무작위 결측 (MAR) : 특정변수와 연관 but 결과에는 영향 x, 변수로 설명가능
      • ex) 여성들은 몸무게를 공개할 가능성적음
      • 비 무작위 결측 : 누락된 값이 다른 변수와 연관있는 경우
      • ex) 몸무게에 대한 응답이 몸무게 자체와 관련(많을수록 무응답)
    • 처리절차
      • 결측값 식별
      • 결측값 부호화 NA, NaN, inf, NULL
      • 결측값 대체
  • 데이터 결측값 처리 방법
    • 단순 대치법 : 결측값을 그럴듯한 값으로 대체, 결측값을 가진 자료분석에 사용하기 쉬움
      • 완전 분석법 : 불완전 자료를 모두 무시, 완전 관측된 자료만 사용, 분석쉽지만 부분적으로 관측된 자료가 무시되어 효율성 상실, 타당성 문제
      • 평균 대치법 : 관측 실험값으로 얻어진 평균값으로 결측값대체, 비조건부/조건부
      • 단순 확률 대치법 : 평균대치법에서 확률을 부여하여 대치하는 방법
        • 핫덱 대체 : 무응답을 비슷한 성향의 응답자로 대체, 표본조사에서 사용
        • 콜드덱 대체 : 핫덱과 비슷 but 외부나 이전연구에서 가져옴
        • 혼합방법 : 회귀, 핫덱 등을 섞음
    • 다중 대치법 : 단순대치법을 m번 반복함
      • 적용방식 : 한번이상 각각 다른값으로 대치하여 여러개 표본을 구함
        • 대치 : 예측분포 또는 사후분포에서 추출된 값 사용, 베이지안 방법
        • 분석 : D개의 대치표본으로 각각의 원하는 분석 수행
        • 결합 : 모수의 점추정과 표준오차의 추정치를 D개 구한후 결합
      • 여러번의 대체 표본으로 대체 내 분산과 대체 간 분산을 구해 추정치의 총 분산을 추정하는 방법

 

데이터 이상값 처리

  • 데이터 이상값 : 범주에서 많이 벗어난 값
    • 발생원인
      • 데이터 입력오류
      • 측정오류
      • 실험 오류 : 실험 조건 동일하지 않을 시
      • 고의적인 이상값 : 일부러 사람들이 다르게 적는 경우
      • 표본추출 에러 : 데이터 샘플링 과정에서의 에러
    • 검출 방법
      • 개별 데이터 관찰
      • 통곗값
      • 시각화
      • 머신러닝 기법 : 데이터 군집화를 통한 이상값 검출 (K-평균 알고리즘)
      • 마할라노비스 거리 이용 : 데이터 분포를 고려한 거리측도, 얼마나 벗어났는지 측정
      • LOF(Local Outlier Factor) : 밀도의 상대적인 비교를 통해 이상값을 탐색
      • iForest(Isolation Forest) : 거리나 밀도에 의존 x, 의사결정나무 통해서
    • 통계기법 이용한 이상값 검출 방법
      • ESD : 평균으로부터 3표준편차 떨어진 값을 이상값으로 판단
      • 기하평균 활용 : 기하평균으로부터 2.5 표준편차
      • 사분위 수 이용 : 1,3 사분위를 기준으로 (Q3-Q1)의 1.5배이상 떨어진 값
      • Z-Score : 정규분포를 따른는 관측치들이 얼마나 떨어져 있는지
      • 딕슨의 Q 검정 : 오름차순 정렬데이터에서 범위에 대한 관측간의 차이 비율을 활용, 데이터 수가 30개 미만인 경우
      • 그럽스 T-검정 : 정규분포를 만족하는 단변량 자료에서 검정하는 방법
      • 카이제곱 검정 : 정규분포 만족하나 자료의 수가 적은 경우에 사용하는 방법
  • 통계기법 이요한 이상값 검출
    • 시각화를 이용한 데이터 이상값 검출
      • 확률 밀도함수 : 확률변수의 분포를 보여주는 함수
      • 히스토그램 : 막대그래프
      • 시계열 차트 : 일반 주식 차트라고 생각하면 될듯
    • 머신 러닝 기법을 이용한 데이터 이상값 검출
      • K개의 클러스터로 묶어 분산을 최소화 하는 방식
    • 마할라 노비스거리를 이용한 이상값 탐색
      • 데이터의 분포를 고려한 거리측도, 관측치가 평균으로부터 벗어난 정도 측정
      • 모든 변수간에 선형관계 만족해야함
    • LOF
      • 밀도를 이용한 방법
    • iForest
      • 의사결정나무 이용 (자료구조 트리 생각하면됨)
      • 데이터의 평균적인 관측치와 벌리 떨어진 관측치 일수록 적은 횟수의 공간 분할을 통해 고립 시킬 수 있음
      • 적은 횟수로 말단 노드에 도달하는 관측치 일수록 이상값일 가능성이 큼
  • 데이터 이상값 처리
    • 삭제
      • 이상값을 제외하는 것은 현실자료를 제대로 반영하는 방법으로 적절하지 않을 수 있음
      • 극단값을 절단하기도함
        • 기하평균을 이요한 제거
        • 하단 상단 %를 이용한 제거
    • 대체법 (Imputation)
      • 하한값 상한값으로 이상값을 대체하는 방법
      • 이상값을 평균이나 중앙값으로 대체하는 방법
    • 변환
      • 극단적인 값으로 인해 이상값 발생시 자연로그 취해서 값을 감소, 즉 실젯값을 변형
    • 박스 플롯 해석을 통한 이상값 제거
      • 사분위 수를 이용해서 제거하는 방법 사용
      ​ 참고) 박스플롯
      • 하위경계 : 제 1사분위에서 1.5 IQR을 뺀 위치
      • 최솟값 : 하위 경계 내의 관측치의 최솟값
      • 제 1 사분위 (Q1) : 자료들의 하위 25%의 위치를 의미
      • 제 2 사분위 (Q2) : 자료들의 50%의 위치로 중위수를 의미, 두꺼운 막대로 가시성 높임
      • 제 3 사분위 (Q3) : 자료들의 하위 75%의 위치를 의미
      • 최댓값 : 상위 경계 내의 관측치의 최댓값
      • 상위 경계 : 제 3 사분위에서 IQR의 1.5배 위치
      • 수염 : Q1, Q1로 부터 IQR의 1.5배 내에 있는 가장 멀리 떨어진 데이터까지 이어진 선
      • 이상값 : 수염보다 바깥쪽에 데이터 존재하는 값
    • 분류하여 처리
      • 이상값이 많을 경우에 사용하는 방법 , 그룹화를 시킴

변수 선택

  • 변수 : RDBMS 에서 속성(row)이라고 부르는 것을 머신러닝에서는 변수라고 한다.
    • 명칭
      • 알려진값 : 변수, 속성, 예측변수, 차원, 관측치수, 독립변수
      • 예측값 : 라벨, 클래스, 목푯값, 반응, 종속변수
  • 변수의 유형
    • 인과관계
      • 독립변수 : 다른변수 영향 x
      • 종속변수 : 영향 받는 변수, 관측값
    • 변수 속성
      • 범주형 : 범위와 순서가 있는변수
        • 명목형 : 크기와 상관없음 이름만 부여
        • 순서형 : 순서에 따른 의미 부여
      • 수치형 : 수치로 표현되는 변수
        • 이산형 : 하나하나 셀수 있는 경우
        • 연속형 : 모든값을 가지느 경우
    • 연속형 자료라면 공변량 이라하고 범주형 자료라면 요인이라고 한다.
  • 변수 선택
    • 차원의 간소화 하고 과적합을 줄여 일반화 해주는 장점
    • 과적합 : 현재 모델만 최적화 되어있어 새로운 값이 들어올때 오차 커짐
    • 선택기법
      • 필터 기법 : 통계적 특성 이용
      • 래퍼 기법 : 일부만 모델링하고 그결과를 확인하는 작업 반복
      • 임베디드 기법 : 모델 자체에 변수 선택이 포함된 기법
    • 필터기법
      • 계산속도가 빠르고 변수간 상관관계 알아내는데 적합, 전처리과정에 사용
      • 정보소득 : 정보소득이 높은 속성 선택 데이터 잘 구분되게
      • 카이제곱 검정 : 관찰 빈도와 기대되는 빈도의 의미 분석
      • 피셔 스코어 : 최대 가능성 방정식을 풀기 위해 사용되는 뉴턴의 법칙
      • 상관계수 : 두 변수 사이의 통계적 관계를 표현
    • 래퍼 기법(Wrapper Method)
      • 예측 정확도 측면에서 가장 좋은 하위집합 선택
      • 그리디 알고리즘 : 최적의 길을 찾아가는 방식
      • 예측정확도가 높음
      • 전진선택법 : 모형 향상시키는 변수 하나씩 추가, 향상 멈출시 추가 중단
      • 후진제거법 : 가장 적은 영향 주는 변수 하나씩 제거
      • 단계적방법 : 혼합
      • RFE : SVM을 사용하여 재귀적으로 제거하는 방법
      • SFS : 그리디 알고리즘으로 특성 변수를 하나씩 추가하는 방법
      • 유전 알고리즘
      • 단변량 선택 : 하나의 변수 선택법
      • mRMR : 특성 변수의 중복성을 최소화 하는 방법
    • 임베디드 기법
      • 모델의 정확도에 기여하는 변수를 학습
      • 좀더 적은 계수를 가지는 회귀식을 찾는 방향으로 제어
      • LASSO : 가중치의 절댓값의 합을 최소화 하는 것을 제약조건, L1-norm
        • L1-norm : 벡터 p, q 각원소들 차이의 절대값
      • Ridge : 가중치의 제곱 합을 최소화 하는것
        • L2-norm : p, q의 직선거리
      • Elastic Net : 라쏘와 릿지를 선형 결합
      • SelectFromModel : 의사결정 나무 기반 알고리즘에서 변수 선택

차원축소

  • 차원축소 : 데이터를 최대한 효과적으로 사용하기 위해 차원 축소, 설명변수만 사용하기 때문에 비지도 학습 머신러닝 기법
    • 특징
      • 데이터 변수들의 정보 최대한 유지
      • 변수들사이의 관계 파악해서 새로운 변수를 만들어서 설명
      • 완결된 분석기법보다는 다른 분석과정을 위한전단개, 시각화등의 목적으로 사용
      • 고차원보다 변환된 저차원으로 학습할 경우 머신러닝에 용의
      • 시각화가 쉬움
    • 기법
      • 주성분 분석 (PCA)
        • 공분산행렬이나 상관행렬 이용
        • 정방행렬에만 사용
        • 고차원 공간의 표본들을 선형 연관성이 없는 저차원 공간으로 변환
      • 특이값 분해 (SVD)
        • 행렬데이터에서 특이값을 추출하여 데이터를 축약
      • 요인분석
        • 잠재적변수가 존재한다고 가정
        • 잠재적 요인을 도출하고 데이터 안의 구조 해석, 설문조사 등에서 많이 사용
      • 독립성분분석(ICA)
        • 다변량의 신호를 통계적으로 독립적인 하부 성분으로 분리하여 차원 축소
        • 비정규 분포를 따르게 되는 차원축소 기법
      • 다차원 척도(MDS)
        • 개체들 사이의 유사성, 비유사성을 측정 2차원 혹은 3차원 공간의 점으로 표현
    • 활용분야
      • 정보결과 , 시각화, 학습모델생성
      • 탐색적데이터 분석
      • 공통요인 추출
      • 특징 패턴추출 등

파생변수 생성

  • 파생변수 ( Derived Variance ) : 새롭게 재정의한 변수
    • 생성방법
      • 단위변환
      • 표현형식 변환 : 남,여 데이터를 0,1로 변환
      • 요약 통계량 변환
      • 변수 결합

변수 변환

  • 변수 변환 : 불필요한 변수 제거, 변수 반환, 새로운 변수 생성
    • 방법
      • 단순 기능 변환 : 로그변환, 역수변환 등
      • 비닝 : 기존의 데이터를 범주화 (점수를 상,중,하로 나눔)
      • 정규화 : 데이터를 특정구간으로 바꾸는 척도법, 최대-최소정규화, Z-스코어
      • 표준화 : 데이터를 0을 중심으로 양쪽으로 데이터 분포
    • 단순 기능 변환
      • 로그 : 변수의 분포를 변경하기 위해, 변수들의 분포가 오른쪽으로 기울어진것을 감소
      • 제곱,세제곱,루트
    • 비닝 : bin으로 분할계산, 데이터 평활화에서도 사용, 범주화 사용
    • 변수 변환 사례
      • 매출, 판매수량, 가격, 가구소득 -> 로그
      • 지리적 거리 -> 역수, 로그
      • 효용에 근거한 시장 점유율 - > e^z / 1+e^x
      • 우측으로 꼬리가 긴 분포 -> 제곱근, 로그
      • 좌측으로 꼬리가 긴 분포 -> 제곱

불균형 데이터 처리

  • 불균형 데이터 처리 : 타깃 데이터의 수가 매우 극소수인 경우 시행
    • 언더 샘플링 : 작은 데이터에 맞추겠다
      • 다수 클래스의 데이터 일부만 선택하여 데이터 비율 맞춤
      • 데이터 소실 매우 큼, 정상 데이터를 잃을 수 있음
      • 랜덤언더 샘플링 : 무작위로 다수클래스 데이터 일부만 선택
      • ENN : 소수 클래스 주위에 인접한 다수 클래스 제거하여 데이터의 비율 맞춤
      • 토멕링크 : 토멕링크는 클래스를 구분하는 경계선 가까이에 존재하는 데이터로 이를 제거
      • CNN : 다수의 클래스에 밀집된 데이터가 없을 때 까지 데이터 제거
      • OSS : 토멕링크와 CNN 장점을 섞음, 토멕링크 제거후 CNN으로 밀집제거
    • 오버 샘플링 : 큰 데이터에 맞추겠다
      • 데이터를 생성, 복제하여 맞춤, 과적합일어날 수 있음
      • 랜덤 오버 샘플링 : 무작위로 복제하여 데이터 비율 맞춤
      • SMOTE : 소수 클래스에서 중심이 되는 데이터와 주변데이터사이에 가상의 직선 만들고 그 위에 추가하는 방법
      • Borderline - SMOTE : 경계선에서 SMOTE를 적용하는 방법
      • ADASYN : 모든 소수 클래스에서 다수 클래스의 관측비율을 계산하여 SMOTE 적용
    • 임계값 이동 : 임곗값을 데이터가 많은쪽으로 이동 (귀무가설을 기각하는 값)
    • 앙상블 기법
      • 여러가지 모형들의 예측 분류결과를 종합하여 의사결정에 활용
      • 여러가지를 조합, 가장 많은 클래스를 적용

2. 데이터 탐색

데이터 탐색 개요

  • 데이터 탐색
    • 탐색적 데이터 분석 (EDA) - 4R
      • 저항성 (Resistance)
        • 수집된 자료에 오류, 이상값이 있어도 영향 적게 받는 성질
        • 저항성이 있으면 부분적 변동에 민감하지 않음
        • 저항성이 큰 통계적데이터 이용해야 한다.
      • 잔차 해석 (Residual)
        • 주경향으로 부터 얼마나 벗어난 정도
        • 잔차를 통해 보통과 다른 특징 탐색
        • 왜 존재하는지 탐색
      • 자료 재표현
        • 데이터분석과 해석을 단수화 하기위해 변수를 적당한 척도로 변환
        • 대칭성, 선형성, 안정성등을 파악할 수 있음
      • 현시성(Graphic Representation)
        • 데이터 시각화, Display, Visulization
        • 데이터 분석 결과를 쉽게 이해할 수 있도록 시각적으로 표현, 전달
    • 개별 변수 탐색 방법
      • 범주형 데이터 : 명목척도와 순위 척도에 대한 데이터 탐색, 막대형 그래프
      • 수치형 데이터 : 등간 척도와 비율 척도에 대한 데이터 탐색, 박스플롯, 히스토그램
      • 양적데이터인 명목(값에 서열 없음) / 순위(값에 서열 있음)
      • 질적 데이터인 등간( 임의로 지정한 단위로 측정느낌)/ 비율
    • 다차원 데이터 탐색 방법
      • 범주-범주 : 빈도수와 비율 활용 데이터간의 연관성 분석 , 막대형그래프
      • 수치-수치 : 산점도와 기울기로 상관성 분석
      • 범주-수치 : 주로 박스플롯 이용하여 시각화함

상관관계 분석

  • 상관관계 분석 : 상호연관성의 존재여부 분석
    • 양,음 없음 의 종류로 이루어져 있음
    • 표현방법
      • 산점도
      • 공분산
        • 공분산은 2개의 변수 사이의 상관정도
        • 공분산 C>0 하나가 상승하면 다른 하나도 상승, C<0 이면 반대
        • 상관관계의 상승 혹은 하강하는 경향을 이해할 수 있따.
        • 선형관계의 강도를 나타내지는 못함
      • 상관계수 : 두 변수 사이의 연관성을 수치적으로 객관화 -1 <= r <= 1
    • 분류
      • 변수에 개수에 따라서 단순, 다중 (2개 ,3개이상)
      • 속성에 따라서
        • 수치적데이터 - 피어슨 상관계수로 분석, 분산이 동알하다는 전제조건
        • 순서적 데이터 - 스피어만 순위 상관분석
        • 명목적 데이터 - 카이제곱 검정 (교차분석), 상관계수 의미 없음

기초 통계량 추출 및 이해

  • 중심 경향성의 통계량
    • 평균 - 이상값에 의해 값의 변동이 심하게 변할 수 잇음
    • 중위수 (Median) - 딱 중앙의 값, 짝수일때는 중간 2값의 평균으로 구함
    • 최빈값 : 가장 많이 관측되는 수
  • 산포도의 통계량
    • 범위 : 최대와 최소의 차이
    • 분산 : 평균으로부터 흩어진정도
      • 모분산과 표본분산의 공식은 넣고 외우자
    • 표준편차 : 분산의 양의 제곱근
      • 모표준편차와 표본표준편차 공식도 외우자
    • 변동계수 (CV)
      • 측정 단위가 서로 다른 자료의 흩어진 정도 비교할때 쓰임
      • 상대 표준편차라고도 함
      • 표준편차를 표본평균으로 나눈값, 값이 클수록 상대적 차이 큼
    • 사분위 수 범위 (IQR)
      • 자료들의 중간 50%에 포함되는 자료의 산포도
      • 제 1사분위수 Q1과 제 3 사분위 수 Q3사이의 차이다
      • 구하는 방법
        1. 오름차순정렬
        2. 중위수 구함
        3. 중위수 기준으로 Q1, Q3 를 각각 구함
        4. IQR= Q1-Q3
      • 참고 : Q1하위 25% Q3 상위 25%
  • 데이터 분포를 나타내는 통계량
    • 왜도 : 데이터 분포가 정규 분포로 부터 오른쪽 혹은 왼쪽으로 치우친 정도
      • 왼쪽 편포 : 평균<중위수<최빈값, 왼쪽 꼬리 분포의 왜도<0
      • 오른쪽 편포 : 최빈값<중위수<평균, 오른쪽 편포의 왜도 >0
    • 첨도 : 정규분포로 부터 위 아래쪽의 뾰족한 정도

시각적 데이터 탐색

  • 히스토그램 : 자료분포를 직사각형 형태로 보여줌
    • 특징
      • 가로축은 수치형 데이터
      • 막대는 서로 붙어있음
      • 막대 넓이는 일정
    • 막대형 그래프
      • 막대의 길이로 표현
      • 가로축은 수치형 데이터가 아니어도 됨
      • 막대는 서로 떨어져 있음
      • 넓이도 같지 않을 수 있음
  • 박스플롯 : 상자수염그림, 상자그림등으로 불림, 집함의 범위와 중앙값을 빠르게 확인 가능, 이상값 확인 가능
    • 박스플롯 구성요소는 이전에 다룬바가 있으므로 참고
  • 산점도 : 가로축과 세로축의 좌표평면상에서 점들을 시각화

시공간 데이터 탐색

  • 시공간 데이터 : 공간적 객체에 시간의 개념이 추가, 위치나 형상이 변하는 데이터
    • 특징 : 거리속성과 시간속성 가지고 잇음
      • 이산적 변화 : 수집주기가 일정하지 않음, 시간에 따라 데이터 추가
      • 연속적 변화 : 일정한 주기 연속적 표현, 함수를 이용하여 표현
    • 타입
      • 포인트타입 : 하나의 노드로 구성
      • 라인 타입 : 서로 다른 두 개의 노드와 두 노드를 잇는 세그먼트로 구성
      • 폴리곤 타입 : n개의 노드와 n개의 세그먼트로 구성
      • 폴리라인 타입 : n개의 노드와 n-1의 세그먼트로 구성 (참고로 둘다 n은 3이상)
  • 시공간 데이터 탐색 절차
    1. 주소를 행정구역으로 변환
      • 엑셀, 문자열 처리함수를 이요해 쉽게 변환
      • 공백문자를 기준으로 분할
      • split, find, left, mid
    2. 주소를 좌표계로 변환
      • 위도와 경도로 변환
      • 지오 코딩 서비스 이용
    3. 행정구역 및 좌표계를 지도에 표시
      • 코로플레스 지도 : 수치에 따라 지정한 색상으로 크기 표현
      • 카토 그램 : 데이터값에 따라 지도의 면적이 왜곡되는 지도, 변량비례도
      • 버블 플롯 맵 : 버블차트에 위도와 경도정보를 적용하여 나타냄

다변량 데이터 탐색

  • 다변량 데이터
    • 변량 : 조사 대상의 특징, 성질 을 숫자나 문자로 나타낸것
    • 변량 데이터의 유형 : 종속변수(Y)에 의해 결정 ,일변량, 이변량, 다변량
      • 일변량 - 기술통계, 그래프 통계
      • 이변량 - 두개의 특성을 동시 관측, 두 변수 사이의 관계 밝히는것이 대상
      • 다변량 - 시각적으로 자료 탐색
    • 다변량 데이터 탐색도구
      • 산점도 행렬 : 산점도를 행렬로 나타내 변수간의 연관성 표현
        • 그림행렬 : 최대 20개의 변수 사용 가능, 변수가 여러개 있을때 두개씩 확인 용의
        • 개별 Y대 개별 X 산점도 행렬
      • 별 그림 : 육각형 점수 매기는거 생각하면 됨

비정형 데이터 탐색

  • 비정형 데이터
    • 유형 : 비정형, 반정형 - 텍스트, 이미지, XML, JSON, HTML
    • 탐색방법
      • 텍스트 탐색 - 스크립트 파일 형태일 경우 파싱한후 탐색
      • 동영상, 이미지 - 응용소프트웨어 이용
      • XML, JSON, HTML - 파서를 이용 파싱한 후 탐색
    • 탐색플랫폼
      • HDFS, 맵리듀스, 주키퍼, Avro, Hive, Pig, HCatalog

3. 통계기법 이해

기술통계 - 데이터 요약

  • 기초 통계량
    • 평균 - 표본평균, 모평균, 표본평균과 구분하기위해 μ를 모평균으로 사용
    • 중위수 - 중앙값
    • 최빈수 - 가장많이 나오는 값
    • 범위
    • 분산
    • 표본편차
    • 표준오차
      • 표본 평균의 표본 추출 분포에 대한 표준 편차
      • 표본들에 대한 평균 구하고 전체 평균을 다시 구한값으로 전체 평균과 비교
    • 분포
  • 상관분석
    • 피어슨 상관계수 공식 보고 이해하기
    • 스피어만 순위 상관계수
    • 카이 검정 제곱
  • 회귀분석 : 하나이상의 독립변수들이 종속변수에 미치는 영향을 추정
    • 종류: 단순회귀 ,다중회귀
    • 적합성 평가 - 전제조건
      • 선형성 : 선형관계가 존재
      • 등분산성 : 잔차들은 같은 분산
      • 독립성 : 잔차와 독립변수의 값이 관련 x
      • 비상관성 : 관측치들의 잔차들 거리 상관 x
      • 정규성 : 정규분포 따름
    • 독립변수 선택방법
      • 후진 제거법 : 하나씩 변수들 제거
      • 전진 선택법 : 하나씩 변수를 늘려나감
      • 단계적 방법 : 절충안
  • 분산 분석 : 분산비교로 얻은 F-분포 이용하여 가설 검정을 수행하는 방법
    • 특징
      • 검정 통계량인 F-검정 통계량 값은 집단 내 분산대비 집단간 분산이 몇배 더 큰지 나타내는 값으로 해석
      • 복수의 집단 비교시, 분산을 계산하여 집단간의 통계적차이 유무 판정
    • 종류 ( 종속변수의 평균 차이를 분석하는 방법 )
      • 일원분산 : 독립1 종속1
      • 이원분산 : 독립2 종속1
      • 다변량 : 종속2 이상
      • 공분산 : 연속형 외생변수가 종속변수에 미치는 영향제거 후 종속변수의 평균차이
  • 주성분 분석 (PCA) : 패턴을 간결하게 표현하는 주성분 변수를 선형결합으로 추출
    • 특징
      • 원래 변수정보를 축약한 변수
      • 일부 성분에 의해 변수변동이 설명되는지 알아보는 분석방법
      • 적은 변수로 요약, 분산의 최대량 설명
  • 판별 분석 : 판별규칙,함수를 만들고 다변량 기법으로 조사도니 집단에 대한 정보활용하여 개체가 어떤 집단인지 탐색

표본 추출

  • 표본추출기법
    • 단순 무작위 추출: 랜덤
    • 계통 추출 : 일정한 간격으로 추출
    • 층화 추출 : 여러 계층으로 추출, 계층간 동질적이고 외부간 이질적일때
    • 군집 추출 : 군집으로 나누고 추출, 성질고려x
  • 자료 측정
    • 질적속성
      • 명목 척도 : 단순 집단 분류
      • 순서 척도 : 측정관계의 대소
    • 양적속성
      • 구간 척도 : 등간척도, 서열과 의미있는 이름 가짐
      • 비율 척도 : 척도간 비율도 의미가 있는 척도

확률 분포

  • 확률분포 : 확률변수가 특정한 값을 가질 확률을 나타내는 분포
    • 종류
      • 이산확률 분포 : 이산확률변수 X가 가지는 확률분포
        • 포아송 분포 : 주어진 시간 영역에서 발생횟수
        • 베르누이 분포 : 성공 실패 중하나
        • 이항분포 : 시행 확률이 p 일때 k번 성공할 확률
      • 연속 확률 분포
        • 정규분포
        • 표준정규분포 ( Z- 분포)
        • T-분포 : 정규분포의 평균 해석에 많이 쓰임, 모 표준편차 모를때 사용
        • 카이제곱 분포 : K개의 독립적인 확률변수를 각각제곱해서 얻음 K는 자유도
        • F-분포

표본 분포

  • 표본 분포 : 모집단에서 추출한 크기가 일정한 표본이 가지는 추정량의 확률분포
    • 통계량에 의해 모집단에 있는 모수를 추론한다.
    • 용어
      • 모집단 : 정보를 얻고자 하는 대상이 되는 집단 전체
      • 모수 : 모집단의 특성을 나타내는 대푯값
      • 통계량 : 표본에서 얻은 평균이나 표준 오차와 같은 값, 무작위 추출시 표본에 따라 달라지는 확률 변수
      • 추정량 : 모수의 추정을 위해 구해진 통계량
      • 표준편차 : 자료의 변동정도 σ, s 를 의미
      • 표준오차 : 통계량의 변동정도, 평균을 낸 값들의 표준 편차를 표준오차라고 부름
    • 표본 조사 용어
      • 표본오차 : 모집단을 대표할 수 있는 표본 단위들이 조사대상으로 추출되지 못해서 발생
      • 비표본오차 : 표본오차를 제외한 모든 오차, 부주의나 실수등의 이유
      • 표본편의 : 모수를 작게 또는 크게 할때 생김, 확률화에 의해 최소화 하거나 제거 불가
      • 참고) 확률화 - 모집단으로 부터 편의 되지 않은 표본을 추출하는 절차를 의미
    • 표본 분포와 관련된 법칙
      • 큰 수의 법칙 : 데이터를 많이 뽑을 수록 표본평균의 분산은 0에 가까워짐
      • 중심 극한 정리 : 표본의 개수가 커지면 표본 분포는 정규분포에 근사
    • 유형
      • Z-분포 : 표본 통계량이 표본 평균일 때 이를 표준화 시킨 표본 분포
      • T-분포 : 모집단이 정규 분포라는 정도만 알고, 모 표준편차는 모를때 사용하는 표본분포
      • 카이제곱 분포 : k개의 서로 독립적인 표준 정규 확률변수를 각각 제곱한 다음 합하여 얻어지는 분포
      • F-분포 : 표본 통계량이 두 독립 표본에서 계산된 표본 분산들의 비율일 때의 표본 분포

추론통계 - 점추정

  • 점추정 : 표본의 정보로 부터 모집단의 모수를 하나의 값으로 추정하는 기법
    • 점 추정 조건
      • 불편성 : 모든 가능한 표본에서 얻은 추정량의 기댓값은 모집단의 모수와 차이가 없음
      • 효율성 : 추정량의 분산이 작을수록 좋음
      • 일치성 : 표본의 크기가 아주 커지면, 추정량이 모수와 거의 같아짐
      • 충족성 : 추정량은 모수에 대하여 모든 정보를 제공
    • 점 추정에 사용되는 통계
      • 표본평균 : 모집단의 평균을 추정하기 위한 추정량, 확률 표본의 평균값
      • 표본분산 : 모집단의 분상르 추정하기 위한 추정량
      • 중위수
      • 최반값

구간 추정

  • 구간 추정 : 추정값에 대한 신뢰도를 제시하면서 범위로 모수를 추정하는 방법
    • 구해진 구간 안에 모수가 있을 가능성의 크기가 주어져야 한다.
    • 구간 추정 용어
      • 신뢰수준 : 추정값이 존재하는 구간에 모수가 포함될 확률
      • 신뢰구간 : 신뢰수준을 기준으로 추정된 통계적으로 유의미한 모수의 범위

가설 검정

  • 가설 : 모집단의 특성, 특히 모수에 대한 가정 혹은 잠정적 결론, 귀무가설과 대립가설이 있다.
    • 종류
      • 귀무가설 (H0) : 현재까지 주장되어 온 것, 변화 혹은 차이가 없음을 나타냄
      • 대립가설 (H1) : 표본을 통해 확실한 근거를 가지고 입증하고자 하는 가설, 연구가설
    • 검정 : 모집단에 대한 통계적 가설을 세우고 표본을 추출하여 통계적 가설의 진위를 판단
    • 절차
      • p-value와 유의수준을 비교하여 귀무가설 혹은 대립가설을 채택하는 절차를 거치게 됨
      • p-value < 유의수준 --> 귀무가설 기각, 대립가설 채택
      • p-value > 유의수준 --> 귀무가설 채택, 대립가설 기각
    • 방법
      • 양측 검정 : 모수 θ에 대해서 표본 자료를 바탕으로 모수가 특정값 θ₀와 통계적으로 같은지 여부를 판단.
        • 귀무가설 H₀: θ = θ₀, 대립가설을 H₁ : θ ≠ θ₀
      • 단측 검정 : 큰지 작은지 여부 판단.
        • 귀무가설 H₀: θ >= θ₀, 대립가설을 H₁ : θ < θ₀
        • 귀무가설 H₀: θ <= θ₀, 대립가설을 H₁ : θ > θ₀
    • 검정의 오류 : 표본에 기반하기 때문에 항상 오류 존재할 수 있다.
      • 제1종 오류 : 귀무가설이 참인데 잘못하여 기각하는경우
        • 유의수준 : 제1종 오류를 범할 최대 허용 확률 α
        • 신뢰수준 : 귀무가설이 참일때 이를 참이라고 판단하는 확률 (1-α)
      • 제2종 오류 : 귀무가설이 참이 아닌데 잘못하여 이를 채택하게 되는 오류
        • 베타 수준 : 제 2종 오류를 범할 최대 허용확률을 의미 β
        • 검정력 : 귀무가설이 참이 아닌 경우 이를 기각할 수 있는 확률 (1-β)
      • 일반적으로 1종 오류의 영향이 2종 오류의 영향보다 크므로 α를 기준으로 가설검정 수행
    • 검정 통계량
      • 가설 검정의 대상이 되는 모수를 추론하기 위해 사용되는 표본 통계량
      • 귀무가설이 참이라는 전제하에 모집단으로부터 추출된 확률표본의 정보를 이용하여 계산
    • p-value
      • 귀무가설이 참이라는 가정에 따라 주어진 표본 데이터를 희소 또는 극한값으로 얻을 확률
      • 귀무가설이 참일때 귀무가설을 기각하게 되는 제1종 오류를 범할 확률로 보기도 함
    •  

2. 데이터 탐색

3. 통계기법 이해

반응형