빅데이터 탐색

1. 데이터 전처리

데이터 정제

결측값을 채우거나 이상값을 제거하는 과정을 통해 데이터의 신뢰도를 높이는 작업

데이터 정제 절차
1. 오류 원인 분석
  - 결측값 : 누락, 중심 경향값넣기로 처리 가능
  - 노이즈 : 일정범위 중간값 대체
  - 이상값 : 하한,상한값 대체
2. 대상 선정
3. 정제방법 결정
  - 정확한 데이터로 수정하거나 삭제하는 과정
  - 삭제, 대체, 예측값 삽입 등으로 시행

데이터 정제 기술
- 데이터 일관성유지를 위해 수행하는 정제 기법
  - 변환 : 다양한 형태로 표현된 값을 형태 변환 - 코드변환, 형식변환(YYMMDD -> YY.MM.DD)
  - Parsing : 정제규칙 적용위해 최소단위로 분할 - 주민등록번호를 생년월일, 성별로 분할
  - 보강 : 추가 정보를 반영
- 데이터 정제 기술
  - ETL : 추출, 가공 하여 데이터 웨어하우스 및 데이터 마트에 저장하는 기술
  - 맵리듀스 : 데이터 세트 분산, 병렬컴퓨팅 처리 혹은 생성 하기위한 프레임워크, 키-값 쌍으로 구성, 배치 형태 처리방식으로 많은 데이터 처리시 느림
  - 스파크/스톰 : 인메모리 기반 데이터 처리방식, 맵리듀스기반 성능개선, 머신러닝 가능
  - CEP : 실시간 발생 이벤트 처리에 대한 결괏괎 수집 처리, 로그 IoT 센싱데이터 등 실시간 데이터 처리 기술
  - Pig : 대용량 데이터 집합분석 플랫폼, 피그 라틴이라는 자체언어 제공
  - Flume : 로그데이터 수집하고 처리하는 기법, 실시간에 근접하게 데이터를 전처리, 수집

데이터 세분화
- 계층적방법 : 사전에 군집수를 정하지 않고 단계적으로 결과 산출
  - 응집 분석법 : 각 개체를 단계적으로 유사한 소집단들을 합쳐 새로운 소집단 구성
  - 분할 분석법 : 전체 집단으로 시작하여 유사성 떨어지는 객체들 분리
- 비 계층적 방법 : 군집을 위한 소집단의 개수 정해놓고 배정시키는 방법
  - 인공신경망 모델
  - K-평균 군집화 : K개의 소집단의 중심좌표 이용 객체간의 거리 산출 가장 근접한 소집단 배정후 해당소집단의 중심좌표를 업데이트 하는 방식

데이터 결측값 처리

데이터 결측값 : 입력이 누락된값, NA, 9999, Null 등
- 종류
  - 완전무작위 결측 (MCAR) : 아무런 상관없는 결측값
  - 무작위 결측 (MAR) : 특정변수와 연관 but 결과에는 영향 x, 변수로 설명가능
  - ex) 여성들은 몸무게를 공개할 가능성적음
  - 비 무작위 결측 : 누락된 값이 다른 변수와 연관있는 경우
  - ex) 몸무게에 대한 응답이 몸무게 자체와 관련(많을수록 무응답)
- 처리절차
  - 결측값 식별
  - 결측값 부호화 NA, NaN, inf, NULL
  - 결측값 대체

데이터 결측값 처리 방법
- 단순 대치법 : 결측값을 그럴듯한 값으로 대체, 결측값을 가진 자료분석에 사용하기 쉬움
  - 완전 분석법 : 불완전 자료를 모두 무시, 완전 관측된 자료만 사용, 분석쉽지만 부분적으로 관측된 자료가 무시되어 효율성 상실, 타당성 문제
  - 평균 대치법 : 관측 실험값으로 얻어진 평균값으로 결측값대체, 비조건부/조건부
  - 단순 확률 대치법 : 평균대치법에서 확률을 부여하여 대치하는 방법
    - 핫덱 대체 : 무응답을 비슷한 성향의 응답자로 대체, 표본조사에서 사용
    - 콜드덱 대체 : 핫덱과 비슷 but 외부나 이전연구에서 가져옴
    - 혼합방법 : 회귀, 핫덱 등을 섞음
- 다중 대치법 : 단순대치법을 m번 반복함
  - 적용방식 : 한번이상 각각 다른값으로 대치하여 여러개 표본을 구함
    - 대치 : 예측분포 또는 사후분포에서 추출된 값 사용, 베이지안 방법
    - 분석 : D개의 대치표본으로 각각의 원하는 분석 수행
    - 결합 : 모수의 점추정과 표준오차의 추정치를 D개 구한후 결합
  - 여러번의 대체 표본으로 대체 내 분산과 대체 간 분산을 구해 추정치의 총 분산을 추정하는 방법

데이터 이상값 처리

데이터 이상값 : 범주에서 많이 벗어난 값
- 발생원인
  - 데이터 입력오류
  - 측정오류
  - 실험 오류 : 실험 조건 동일하지 않을 시
  - 고의적인 이상값 : 일부러 사람들이 다르게 적는 경우
  - 표본추출 에러 : 데이터 샘플링 과정에서의 에러
- 검출 방법
  - 개별 데이터 관찰
  - 통곗값
  - 시각화
  - 머신러닝 기법 : 데이터 군집화를 통한 이상값 검출 (K-평균 알고리즘)
  - 마할라노비스 거리 이용 : 데이터 분포를 고려한 거리측도, 얼마나 벗어났는지 측정
  - LOF(Local Outlier Factor) : 밀도의 상대적인 비교를 통해 이상값을 탐색
  - iForest(Isolation Forest) : 거리나 밀도에 의존 x, 의사결정나무 통해서
- 통계기법 이용한 이상값 검출 방법
  - ESD : 평균으로부터 3표준편차 떨어진 값을 이상값으로 판단
  - 기하평균 활용 : 기하평균으로부터 2.5 표준편차
  - 사분위 수 이용 : 1,3 사분위를 기준으로 (Q3-Q1)의 1.5배이상 떨어진 값
  - Z-Score : 정규분포를 따른는 관측치들이 얼마나 떨어져 있는지
  - 딕슨의 Q 검정 : 오름차순 정렬데이터에서 범위에 대한 관측간의 차이 비율을 활용, 데이터 수가 30개 미만인 경우
  - 그럽스 T-검정 : 정규분포를 만족하는 단변량 자료에서 검정하는 방법
  - 카이제곱 검정 : 정규분포 만족하나 자료의 수가 적은 경우에 사용하는 방법

통계기법 이요한 이상값 검출
- 시각화를 이용한 데이터 이상값 검출
  - 확률 밀도함수 : 확률변수의 분포를 보여주는 함수
  - 히스토그램 : 막대그래프
  - 시계열 차트 : 일반 주식 차트라고 생각하면 될듯
- 머신 러닝 기법을 이용한 데이터 이상값 검출
  - K개의 클러스터로 묶어 분산을 최소화 하는 방식
- 마할라 노비스거리를 이용한 이상값 탐색
  - 데이터의 분포를 고려한 거리측도, 관측치가 평균으로부터 벗어난 정도 측정
  - 모든 변수간에 선형관계 만족해야함
- LOF
  - 밀도를 이용한 방법
- iForest
  - 의사결정나무 이용 (자료구조 트리 생각하면됨)
  - 데이터의 평균적인 관측치와 벌리 떨어진 관측치 일수록 적은 횟수의 공간 분할을 통해 고립 시킬 수 있음
  - 적은 횟수로 말단 노드에 도달하는 관측치 일수록 이상값일 가능성이 큼

데이터 이상값 처리
- 삭제
  - 이상값을 제외하는 것은 현실자료를 제대로 반영하는 방법으로 적절하지 않을 수 있음
  - 극단값을 절단하기도함
    - 기하평균을 이요한 제거
    - 하단 상단 %를 이용한 제거
- 대체법 (Imputation)
  - 하한값 상한값으로 이상값을 대체하는 방법
  - 이상값을 평균이나 중앙값으로 대체하는 방법
- 변환
  - 극단적인 값으로 인해 이상값 발생시 자연로그 취해서 값을 감소, 즉 실젯값을 변형
- 박스 플롯 해석을 통한 이상값 제거
  - 사분위 수를 이용해서 제거하는 방법 사용
  참고) 박스플롯
  - 하위경계 : 제 1사분위에서 1.5 IQR을 뺀 위치
  - 최솟값 : 하위 경계 내의 관측치의 최솟값
  - 제 1 사분위 (Q1) : 자료들의 하위 25%의 위치를 의미
  - 제 2 사분위 (Q2) : 자료들의 50%의 위치로 중위수를 의미, 두꺼운 막대로 가시성 높임
  - 제 3 사분위 (Q3) : 자료들의 하위 75%의 위치를 의미
  - 최댓값 : 상위 경계 내의 관측치의 최댓값
  - 상위 경계 : 제 3 사분위에서 IQR의 1.5배 위치
  - 수염 : Q1, Q1로 부터 IQR의 1.5배 내에 있는 가장 멀리 떨어진 데이터까지 이어진 선
  - 이상값 : 수염보다 바깥쪽에 데이터 존재하는 값
- 분류하여 처리
  - 이상값이 많을 경우에 사용하는 방법 , 그룹화를 시킴

변수 선택

변수 : RDBMS 에서 속성(row)이라고 부르는 것을 머신러닝에서는 변수라고 한다.
- 명칭
  - 알려진값 : 변수, 속성, 예측변수, 차원, 관측치수, 독립변수
  - 예측값 : 라벨, 클래스, 목푯값, 반응, 종속변수

변수의 유형
- 인과관계
  - 독립변수 : 다른변수 영향 x
  - 종속변수 : 영향 받는 변수, 관측값
- 변수 속성
  - 범주형 : 범위와 순서가 있는변수
    - 명목형 : 크기와 상관없음 이름만 부여
    - 순서형 : 순서에 따른 의미 부여
  - 수치형 : 수치로 표현되는 변수
    - 이산형 : 하나하나 셀수 있는 경우
    - 연속형 : 모든값을 가지느 경우
- 연속형 자료라면 공변량 이라하고 범주형 자료라면 요인이라고 한다.

변수 선택
- 차원의 간소화 하고 과적합을 줄여 일반화 해주는 장점
- 과적합 : 현재 모델만 최적화 되어있어 새로운 값이 들어올때 오차 커짐
- 선택기법
  - 필터 기법 : 통계적 특성 이용
  - 래퍼 기법 : 일부만 모델링하고 그결과를 확인하는 작업 반복
  - 임베디드 기법 : 모델 자체에 변수 선택이 포함된 기법
- 필터기법
  - 계산속도가 빠르고 변수간 상관관계 알아내는데 적합, 전처리과정에 사용
  - 정보소득 : 정보소득이 높은 속성 선택 데이터 잘 구분되게
  - 카이제곱 검정 : 관찰 빈도와 기대되는 빈도의 의미 분석
  - 피셔 스코어 : 최대 가능성 방정식을 풀기 위해 사용되는 뉴턴의 법칙
  - 상관계수 : 두 변수 사이의 통계적 관계를 표현
- 래퍼 기법(Wrapper Method)
  - 예측 정확도 측면에서 가장 좋은 하위집합 선택
  - 그리디 알고리즘 : 최적의 길을 찾아가는 방식
  - 예측정확도가 높음
  - 전진선택법 : 모형 향상시키는 변수 하나씩 추가, 향상 멈출시 추가 중단
  - 후진제거법 : 가장 적은 영향 주는 변수 하나씩 제거
  - 단계적방법 : 혼합
  - RFE : SVM을 사용하여 재귀적으로 제거하는 방법
  - SFS : 그리디 알고리즘으로 특성 변수를 하나씩 추가하는 방법
  - 유전 알고리즘
  - 단변량 선택 : 하나의 변수 선택법
  - mRMR : 특성 변수의 중복성을 최소화 하는 방법
- 임베디드 기법
  - 모델의 정확도에 기여하는 변수를 학습
  - 좀더 적은 계수를 가지는 회귀식을 찾는 방향으로 제어
  - LASSO : 가중치의 절댓값의 합을 최소화 하는 것을 제약조건, L1-norm
    - L1-norm : 벡터 p, q 각원소들 차이의 절대값
  - Ridge : 가중치의 제곱 합을 최소화 하는것
    - L2-norm : p, q의 직선거리
  - Elastic Net : 라쏘와 릿지를 선형 결합
  - SelectFromModel : 의사결정 나무 기반 알고리즘에서 변수 선택

차원축소

차원축소 : 데이터를 최대한 효과적으로 사용하기 위해 차원 축소, 설명변수만 사용하기 때문에 비지도 학습 머신러닝 기법
- 특징
  - 데이터 변수들의 정보 최대한 유지
  - 변수들사이의 관계 파악해서 새로운 변수를 만들어서 설명
  - 완결된 분석기법보다는 다른 분석과정을 위한전단개, 시각화등의 목적으로 사용
  - 고차원보다 변환된 저차원으로 학습할 경우 머신러닝에 용의
  - 시각화가 쉬움
- 기법
  - 주성분 분석 (PCA)
    - 공분산행렬이나 상관행렬 이용
    - 정방행렬에만 사용
    - 고차원 공간의 표본들을 선형 연관성이 없는 저차원 공간으로 변환
  - 특이값 분해 (SVD)
    - 행렬데이터에서 특이값을 추출하여 데이터를 축약
  - 요인분석
    - 잠재적변수가 존재한다고 가정
    - 잠재적 요인을 도출하고 데이터 안의 구조 해석, 설문조사 등에서 많이 사용
  - 독립성분분석(ICA)
    - 다변량의 신호를 통계적으로 독립적인 하부 성분으로 분리하여 차원 축소
    - 비정규 분포를 따르게 되는 차원축소 기법
  - 다차원 척도(MDS)
    - 개체들 사이의 유사성, 비유사성을 측정 2차원 혹은 3차원 공간의 점으로 표현
- 활용분야
  - 정보결과 , 시각화, 학습모델생성
  - 탐색적데이터 분석
  - 공통요인 추출
  - 특징 패턴추출 등

파생변수 생성

파생변수 ( Derived Variance ) : 새롭게 재정의한 변수
- 생성방법
  - 단위변환
  - 표현형식 변환 : 남,여 데이터를 0,1로 변환
  - 요약 통계량 변환
  - 변수 결합

변수 변환

변수 변환 : 불필요한 변수 제거, 변수 반환, 새로운 변수 생성
- 방법
  - 단순 기능 변환 : 로그변환, 역수변환 등
  - 비닝 : 기존의 데이터를 범주화 (점수를 상,중,하로 나눔)
  - 정규화 : 데이터를 특정구간으로 바꾸는 척도법, 최대-최소정규화, Z-스코어
  - 표준화 : 데이터를 0을 중심으로 양쪽으로 데이터 분포
- 단순 기능 변환
  - 로그 : 변수의 분포를 변경하기 위해, 변수들의 분포가 오른쪽으로 기울어진것을 감소
  - 제곱,세제곱,루트
- 비닝 : bin으로 분할계산, 데이터 평활화에서도 사용, 범주화 사용
- 변수 변환 사례
  - 매출, 판매수량, 가격, 가구소득 -> 로그
  - 지리적 거리 -> 역수, 로그
  - 효용에 근거한 시장 점유율 - > e^z / 1+e^x
  - 우측으로 꼬리가 긴 분포 -> 제곱근, 로그
  - 좌측으로 꼬리가 긴 분포 -> 제곱

불균형 데이터 처리

불균형 데이터 처리 : 타깃 데이터의 수가 매우 극소수인 경우 시행
- 언더 샘플링 : 작은 데이터에 맞추겠다
  - 다수 클래스의 데이터 일부만 선택하여 데이터 비율 맞춤
  - 데이터 소실 매우 큼, 정상 데이터를 잃을 수 있음
  - 랜덤언더 샘플링 : 무작위로 다수클래스 데이터 일부만 선택
  - ENN : 소수 클래스 주위에 인접한 다수 클래스 제거하여 데이터의 비율 맞춤
  - 토멕링크 : 토멕링크는 클래스를 구분하는 경계선 가까이에 존재하는 데이터로 이를 제거
  - CNN : 다수의 클래스에 밀집된 데이터가 없을 때 까지 데이터 제거
  - OSS : 토멕링크와 CNN 장점을 섞음, 토멕링크 제거후 CNN으로 밀집제거
- 오버 샘플링 : 큰 데이터에 맞추겠다
  - 데이터를 생성, 복제하여 맞춤, 과적합일어날 수 있음
  - 랜덤 오버 샘플링 : 무작위로 복제하여 데이터 비율 맞춤
  - SMOTE : 소수 클래스에서 중심이 되는 데이터와 주변데이터사이에 가상의 직선 만들고 그 위에 추가하는 방법
  - Borderline - SMOTE : 경계선에서 SMOTE를 적용하는 방법
  - ADASYN : 모든 소수 클래스에서 다수 클래스의 관측비율을 계산하여 SMOTE 적용
- 임계값 이동 : 임곗값을 데이터가 많은쪽으로 이동 (귀무가설을 기각하는 값)
- 앙상블 기법
  - 여러가지 모형들의 예측 분류결과를 종합하여 의사결정에 활용
  - 여러가지를 조합, 가장 많은 클래스를 적용

2. 데이터 탐색

데이터 탐색 개요

데이터 탐색
- 탐색적 데이터 분석 (EDA) - 4R
  - 저항성 (Resistance)
    - 수집된 자료에 오류, 이상값이 있어도 영향 적게 받는 성질
    - 저항성이 있으면 부분적 변동에 민감하지 않음
    - 저항성이 큰 통계적데이터 이용해야 한다.
  - 잔차 해석 (Residual)
    - 주경향으로 부터 얼마나 벗어난 정도
    - 잔차를 통해 보통과 다른 특징 탐색
    - 왜 존재하는지 탐색
  - 자료 재표현
    - 데이터분석과 해석을 단수화 하기위해 변수를 적당한 척도로 변환
    - 대칭성, 선형성, 안정성등을 파악할 수 있음
  - 현시성(Graphic Representation)
    - 데이터 시각화, Display, Visulization
    - 데이터 분석 결과를 쉽게 이해할 수 있도록 시각적으로 표현, 전달
- 개별 변수 탐색 방법
  - 범주형 데이터 : 명목척도와 순위 척도에 대한 데이터 탐색, 막대형 그래프
  - 수치형 데이터 : 등간 척도와 비율 척도에 대한 데이터 탐색, 박스플롯, 히스토그램
  - 양적데이터인 명목(값에 서열 없음) / 순위(값에 서열 있음)
  - 질적 데이터인 등간( 임의로 지정한 단위로 측정느낌)/ 비율
- 다차원 데이터 탐색 방법
  - 범주-범주 : 빈도수와 비율 활용 데이터간의 연관성 분석 , 막대형그래프
  - 수치-수치 : 산점도와 기울기로 상관성 분석
  - 범주-수치 : 주로 박스플롯 이용하여 시각화함

상관관계 분석

상관관계 분석 : 상호연관성의 존재여부 분석
- 양,음 없음 의 종류로 이루어져 있음
- 표현방법
  - 산점도
  - 공분산
    - 공분산은 2개의 변수 사이의 상관정도
    - 공분산 C>0 하나가 상승하면 다른 하나도 상승, C<0 이면 반대
    - 상관관계의 상승 혹은 하강하는 경향을 이해할 수 있따.
    - 선형관계의 강도를 나타내지는 못함
  - 상관계수 : 두 변수 사이의 연관성을 수치적으로 객관화 -1 <= r <= 1
- 분류
  - 변수에 개수에 따라서 단순, 다중 (2개 ,3개이상)
  - 속성에 따라서
    - 수치적데이터 - 피어슨 상관계수로 분석, 분산이 동알하다는 전제조건
    - 순서적 데이터 - 스피어만 순위 상관분석
    - 명목적 데이터 - 카이제곱 검정 (교차분석), 상관계수 의미 없음

기초 통계량 추출 및 이해

중심 경향성의 통계량
- 평균 - 이상값에 의해 값의 변동이 심하게 변할 수 잇음
- 중위수 (Median) - 딱 중앙의 값, 짝수일때는 중간 2값의 평균으로 구함
- 최빈값 : 가장 많이 관측되는 수
산포도의 통계량
- 범위 : 최대와 최소의 차이
- 분산 : 평균으로부터 흩어진정도
  - 모분산과 표본분산의 공식은 넣고 외우자
- 표준편차 : 분산의 양의 제곱근
  - 모표준편차와 표본표준편차 공식도 외우자
- 변동계수 (CV)
  - 측정 단위가 서로 다른 자료의 흩어진 정도 비교할때 쓰임
  - 상대 표준편차라고도 함
  - 표준편차를 표본평균으로 나눈값, 값이 클수록 상대적 차이 큼
- 사분위 수 범위 (IQR)
  - 자료들의 중간 50%에 포함되는 자료의 산포도
  - 제 1사분위수 Q1과 제 3 사분위 수 Q3사이의 차이다
  - 구하는 방법
    1. 오름차순정렬
    2. 중위수 구함
    3. 중위수 기준으로 Q1, Q3 를 각각 구함
    4. IQR= Q1-Q3
  - 참고 : Q1하위 25% Q3 상위 25%
데이터 분포를 나타내는 통계량
- 왜도 : 데이터 분포가 정규 분포로 부터 오른쪽 혹은 왼쪽으로 치우친 정도
  - 왼쪽 편포 : 평균<중위수<최빈값, 왼쪽 꼬리 분포의 왜도<0
  - 오른쪽 편포 : 최빈값<중위수<평균, 오른쪽 편포의 왜도 >0
- 첨도 : 정규분포로 부터 위 아래쪽의 뾰족한 정도

시각적 데이터 탐색

히스토그램 : 자료분포를 직사각형 형태로 보여줌
- 특징
  - 가로축은 수치형 데이터
  - 막대는 서로 붙어있음
  - 막대 넓이는 일정
- 막대형 그래프
  - 막대의 길이로 표현
  - 가로축은 수치형 데이터가 아니어도 됨
  - 막대는 서로 떨어져 있음
  - 넓이도 같지 않을 수 있음
박스플롯 : 상자수염그림, 상자그림등으로 불림, 집함의 범위와 중앙값을 빠르게 확인 가능, 이상값 확인 가능
- 박스플롯 구성요소는 이전에 다룬바가 있으므로 참고
산점도 : 가로축과 세로축의 좌표평면상에서 점들을 시각화

시공간 데이터 탐색

시공간 데이터 : 공간적 객체에 시간의 개념이 추가, 위치나 형상이 변하는 데이터
- 특징 : 거리속성과 시간속성 가지고 잇음
  - 이산적 변화 : 수집주기가 일정하지 않음, 시간에 따라 데이터 추가
  - 연속적 변화 : 일정한 주기 연속적 표현, 함수를 이용하여 표현
- 타입
  - 포인트타입 : 하나의 노드로 구성
  - 라인 타입 : 서로 다른 두 개의 노드와 두 노드를 잇는 세그먼트로 구성
  - 폴리곤 타입 : n개의 노드와 n개의 세그먼트로 구성
  - 폴리라인 타입 : n개의 노드와 n-1의 세그먼트로 구성 (참고로 둘다 n은 3이상)

시공간 데이터 탐색 절차
1. 주소를 행정구역으로 변환
  - 엑셀, 문자열 처리함수를 이요해 쉽게 변환
  - 공백문자를 기준으로 분할
  - split, find, left, mid
2. 주소를 좌표계로 변환
  - 위도와 경도로 변환
  - 지오 코딩 서비스 이용
3. 행정구역 및 좌표계를 지도에 표시
  - 코로플레스 지도 : 수치에 따라 지정한 색상으로 크기 표현
  - 카토 그램 : 데이터값에 따라 지도의 면적이 왜곡되는 지도, 변량비례도
  - 버블 플롯 맵 : 버블차트에 위도와 경도정보를 적용하여 나타냄

다변량 데이터 탐색

다변량 데이터
- 변량 : 조사 대상의 특징, 성질 을 숫자나 문자로 나타낸것
- 변량 데이터의 유형 : 종속변수(Y)에 의해 결정 ,일변량, 이변량, 다변량
  - 일변량 - 기술통계, 그래프 통계
  - 이변량 - 두개의 특성을 동시 관측, 두 변수 사이의 관계 밝히는것이 대상
  - 다변량 - 시각적으로 자료 탐색
- 다변량 데이터 탐색도구
  - 산점도 행렬 : 산점도를 행렬로 나타내 변수간의 연관성 표현
    - 그림행렬 : 최대 20개의 변수 사용 가능, 변수가 여러개 있을때 두개씩 확인 용의
    - 개별 Y대 개별 X 산점도 행렬
  - 별 그림 : 육각형 점수 매기는거 생각하면 됨

비정형 데이터 탐색

비정형 데이터
- 유형 : 비정형, 반정형 - 텍스트, 이미지, XML, JSON, HTML
- 탐색방법
  - 텍스트 탐색 - 스크립트 파일 형태일 경우 파싱한후 탐색
  - 동영상, 이미지 - 응용소프트웨어 이용
  - XML, JSON, HTML - 파서를 이용 파싱한 후 탐색
- 탐색플랫폼
  - HDFS, 맵리듀스, 주키퍼, Avro, Hive, Pig, HCatalog

3. 통계기법 이해

기술통계 - 데이터 요약

기초 통계량
- 평균 - 표본평균, 모평균, 표본평균과 구분하기위해 μ를 모평균으로 사용
- 중위수 - 중앙값
- 최빈수 - 가장많이 나오는 값
- 범위
- 분산
- 표본편차
- 표준오차
  - 표본 평균의 표본 추출 분포에 대한 표준 편차
  - 표본들에 대한 평균 구하고 전체 평균을 다시 구한값으로 전체 평균과 비교
- 분포

상관분석
- 피어슨 상관계수 공식 보고 이해하기
- 스피어만 순위 상관계수
- 카이 검정 제곱

회귀분석 : 하나이상의 독립변수들이 종속변수에 미치는 영향을 추정
- 종류: 단순회귀 ,다중회귀
- 적합성 평가 - 전제조건
  - 선형성 : 선형관계가 존재
  - 등분산성 : 잔차들은 같은 분산
  - 독립성 : 잔차와 독립변수의 값이 관련 x
  - 비상관성 : 관측치들의 잔차들 거리 상관 x
  - 정규성 : 정규분포 따름
- 독립변수 선택방법
  - 후진 제거법 : 하나씩 변수들 제거
  - 전진 선택법 : 하나씩 변수를 늘려나감
  - 단계적 방법 : 절충안

분산 분석 : 분산비교로 얻은 F-분포 이용하여 가설 검정을 수행하는 방법
- 특징
  - 검정 통계량인 F-검정 통계량 값은 집단 내 분산대비 집단간 분산이 몇배 더 큰지 나타내는 값으로 해석
  - 복수의 집단 비교시, 분산을 계산하여 집단간의 통계적차이 유무 판정
- 종류 ( 종속변수의 평균 차이를 분석하는 방법 )
  - 일원분산 : 독립1 종속1
  - 이원분산 : 독립2 종속1
  - 다변량 : 종속2 이상
  - 공분산 : 연속형 외생변수가 종속변수에 미치는 영향제거 후 종속변수의 평균차이

주성분 분석 (PCA) : 패턴을 간결하게 표현하는 주성분 변수를 선형결합으로 추출
- 특징
  - 원래 변수정보를 축약한 변수
  - 일부 성분에 의해 변수변동이 설명되는지 알아보는 분석방법
  - 적은 변수로 요약, 분산의 최대량 설명

판별 분석 : 판별규칙,함수를 만들고 다변량 기법으로 조사도니 집단에 대한 정보활용하여 개체가 어떤 집단인지 탐색

표본 추출

표본추출기법
- 단순 무작위 추출: 랜덤
- 계통 추출 : 일정한 간격으로 추출
- 층화 추출 : 여러 계층으로 추출, 계층간 동질적이고 외부간 이질적일때
- 군집 추출 : 군집으로 나누고 추출, 성질고려x
자료 측정
- 질적속성
  - 명목 척도 : 단순 집단 분류
  - 순서 척도 : 측정관계의 대소
- 양적속성
  - 구간 척도 : 등간척도, 서열과 의미있는 이름 가짐
  - 비율 척도 : 척도간 비율도 의미가 있는 척도

확률 분포

확률분포 : 확률변수가 특정한 값을 가질 확률을 나타내는 분포
- 종류
  - 이산확률 분포 : 이산확률변수 X가 가지는 확률분포
    - 포아송 분포 : 주어진 시간 영역에서 발생횟수
    - 베르누이 분포 : 성공 실패 중하나
    - 이항분포 : 시행 확률이 p 일때 k번 성공할 확률
  - 연속 확률 분포
    - 정규분포
    - 표준정규분포 ( Z- 분포)
    - T-분포 : 정규분포의 평균 해석에 많이 쓰임, 모 표준편차 모를때 사용
    - 카이제곱 분포 : K개의 독립적인 확률변수를 각각제곱해서 얻음 K는 자유도
    - F-분포

표본 분포

표본 분포 : 모집단에서 추출한 크기가 일정한 표본이 가지는 추정량의 확률분포
- 통계량에 의해 모집단에 있는 모수를 추론한다.
- 용어
  - 모집단 : 정보를 얻고자 하는 대상이 되는 집단 전체
  - 모수 : 모집단의 특성을 나타내는 대푯값
  - 통계량 : 표본에서 얻은 평균이나 표준 오차와 같은 값, 무작위 추출시 표본에 따라 달라지는 확률 변수
  - 추정량 : 모수의 추정을 위해 구해진 통계량
  - 표준편차 : 자료의 변동정도 σ, s 를 의미
  - 표준오차 : 통계량의 변동정도, 평균을 낸 값들의 표준 편차를 표준오차라고 부름
- 표본 조사 용어
  - 표본오차 : 모집단을 대표할 수 있는 표본 단위들이 조사대상으로 추출되지 못해서 발생
  - 비표본오차 : 표본오차를 제외한 모든 오차, 부주의나 실수등의 이유
  - 표본편의 : 모수를 작게 또는 크게 할때 생김, 확률화에 의해 최소화 하거나 제거 불가
  - 참고) 확률화 - 모집단으로 부터 편의 되지 않은 표본을 추출하는 절차를 의미
- 표본 분포와 관련된 법칙
  - 큰 수의 법칙 : 데이터를 많이 뽑을 수록 표본평균의 분산은 0에 가까워짐
  - 중심 극한 정리 : 표본의 개수가 커지면 표본 분포는 정규분포에 근사
- 유형
  - Z-분포 : 표본 통계량이 표본 평균일 때 이를 표준화 시킨 표본 분포
  - T-분포 : 모집단이 정규 분포라는 정도만 알고, 모 표준편차는 모를때 사용하는 표본분포
  - 카이제곱 분포 : k개의 서로 독립적인 표준 정규 확률변수를 각각 제곱한 다음 합하여 얻어지는 분포
  - F-분포 : 표본 통계량이 두 독립 표본에서 계산된 표본 분산들의 비율일 때의 표본 분포

추론통계 - 점추정

점추정 : 표본의 정보로 부터 모집단의 모수를 하나의 값으로 추정하는 기법
- 점 추정 조건
  - 불편성 : 모든 가능한 표본에서 얻은 추정량의 기댓값은 모집단의 모수와 차이가 없음
  - 효율성 : 추정량의 분산이 작을수록 좋음
  - 일치성 : 표본의 크기가 아주 커지면, 추정량이 모수와 거의 같아짐
  - 충족성 : 추정량은 모수에 대하여 모든 정보를 제공
- 점 추정에 사용되는 통계
  - 표본평균 : 모집단의 평균을 추정하기 위한 추정량, 확률 표본의 평균값
  - 표본분산 : 모집단의 분상르 추정하기 위한 추정량
  - 중위수
  - 최반값

구간 추정

구간 추정 : 추정값에 대한 신뢰도를 제시하면서 범위로 모수를 추정하는 방법
- 구해진 구간 안에 모수가 있을 가능성의 크기가 주어져야 한다.
- 구간 추정 용어
  - 신뢰수준 : 추정값이 존재하는 구간에 모수가 포함될 확률
  - 신뢰구간 : 신뢰수준을 기준으로 추정된 통계적으로 유의미한 모수의 범위

가설 검정

가설 : 모집단의 특성, 특히 모수에 대한 가정 혹은 잠정적 결론, 귀무가설과 대립가설이 있다.
- 종류
  - 귀무가설 (H0) : 현재까지 주장되어 온 것, 변화 혹은 차이가 없음을 나타냄
  - 대립가설 (H1) : 표본을 통해 확실한 근거를 가지고 입증하고자 하는 가설, 연구가설
- 검정 : 모집단에 대한 통계적 가설을 세우고 표본을 추출하여 통계적 가설의 진위를 판단
- 절차
  - p-value와 유의수준을 비교하여 귀무가설 혹은 대립가설을 채택하는 절차를 거치게 됨
  - p-value < 유의수준 --> 귀무가설 기각, 대립가설 채택
  - p-value > 유의수준 --> 귀무가설 채택, 대립가설 기각
- 방법
  - 양측 검정 : 모수 θ에 대해서 표본 자료를 바탕으로 모수가 특정값 θ₀와 통계적으로 같은지 여부를 판단.
    - 귀무가설 H₀: θ = θ₀, 대립가설을 H₁ : θ ≠ θ₀
  - 단측 검정 : 큰지 작은지 여부 판단.
    - 귀무가설 H₀: θ >= θ₀, 대립가설을 H₁ : θ < θ₀
    - 귀무가설 H₀: θ <= θ₀, 대립가설을 H₁ : θ > θ₀
- 검정의 오류 : 표본에 기반하기 때문에 항상 오류 존재할 수 있다.
  - 제1종 오류 : 귀무가설이 참인데 잘못하여 기각하는경우
    - 유의수준 : 제1종 오류를 범할 최대 허용 확률 α
    - 신뢰수준 : 귀무가설이 참일때 이를 참이라고 판단하는 확률 (1-α)
  - 제2종 오류 : 귀무가설이 참이 아닌데 잘못하여 이를 채택하게 되는 오류
    - 베타 수준 : 제 2종 오류를 범할 최대 허용확률을 의미 β
    - 검정력 : 귀무가설이 참이 아닌 경우 이를 기각할 수 있는 확률 (1-β)
  - 일반적으로 1종 오류의 영향이 2종 오류의 영향보다 크므로 α를 기준으로 가설검정 수행
- 검정 통계량
  - 가설 검정의 대상이 되는 모수를 추론하기 위해 사용되는 표본 통계량
  - 귀무가설이 참이라는 전제하에 모집단으로부터 추출된 확률표본의 정보를 이용하여 계산
- p-value
  - 귀무가설이 참이라는 가정에 따라 주어진 표본 데이터를 희소 또는 극한값으로 얻을 확률
  - 귀무가설이 참일때 귀무가설을 기각하게 되는 제1종 오류를 범할 확률로 보기도 함

2. 데이터 탐색

3. 통계기법 이해

'공부 > 빅데이터 분석기사' 카테고리의 다른 글

빅데이터 분석기사 필기 합격 후기 (비전공자) (4)	2021.05.07
빅데이터 모델링 (0)	2021.04.19
빅데이터 분석 기획 (0)	2021.04.19

광보기의 잡동사니

빅데이터 탐색

빅데이터 탐색

1. 데이터 전처리

데이터 정제

데이터 결측값 처리

데이터 이상값 처리

변수 선택

차원축소

파생변수 생성

변수 변환

불균형 데이터 처리

2. 데이터 탐색

데이터 탐색 개요

상관관계 분석

기초 통계량 추출 및 이해

시각적 데이터 탐색

시공간 데이터 탐색

다변량 데이터 탐색

비정형 데이터 탐색

3. 통계기법 이해

기술통계 - 데이터 요약

표본 추출

확률 분포

표본 분포

추론통계 - 점추정

구간 추정

가설 검정

2. 데이터 탐색

3. 통계기법 이해

'공부 > 빅데이터 분석기사' 카테고리의 다른 글

티스토리툴바

빅데이터 탐색

빅데이터 탐색

1. 데이터 전처리

데이터 정제

데이터 결측값 처리

데이터 이상값 처리

변수 선택

차원축소

파생변수 생성

변수 변환

불균형 데이터 처리

2. 데이터 탐색

데이터 탐색 개요

상관관계 분석

기초 통계량 추출 및 이해

시각적 데이터 탐색

시공간 데이터 탐색

다변량 데이터 탐색

비정형 데이터 탐색

3. 통계기법 이해

기술통계 - 데이터 요약

표본 추출

확률 분포

표본 분포

추론통계 - 점추정

구간 추정

가설 검정

2. 데이터 탐색

3. 통계기법 이해

'공부 > 빅데이터 분석기사' 카테고리의 다른 글

'공부/빅데이터 분석기사' Related Articles

티스토리툴바