본문 바로가기

공부/빅데이터 분석기사

빅데이터 모델링

반응형

빅데이터 모델링

1. 분석 모형 설계

분석 모형 선정

  • 분석 모형 선정
    • 목적에 적합하고, 변수들을 고려하여 분석 모형을 선정하는 과정
    • 현상에서 패턴발견 - EDA, 추론 및 예측 - 머신러닝
  • 통계기반 분석 모형 선정
    • 기술 통계
      • 확률통계적으로 요약하는 기초적인 통계
      • 분석 초기단계에서 데이터 분포의 특징 파악
    • 상관분석
      • 두개 이상의 변수 간에 존재하는 상호 연관성 정도 측정
      • 변수의 개수및 데이터 속성에 따라서 세부 모델들로 분류
      • 단순상관, 다중상관, 변수간의 상관분석
    • 회귀분석
      • 하나 이상의 독립변수들이 종속변수에 미치는 영향을 추정
      • 단순 회귀 : 독립변수 1개, 종속변수와 직선 관계
      • 다중 회귀 : 독립변수가 K개, 종속변수와의 관계가 선형
      • 다항 회귀 : 독립변수와 종속변수와의 관계가 1차 함수 이상인 관계
      • 곡선회귀 : 독립변수가 1개, 종속변수와의 관계가 곡선
      • 로지스틱 회귀 : 종속변수가 범주형인 경우 적용
      • 비선형 회귀 : 회귀식의 모양이 선형관계로 이뤄져 있지 않은 모형
    • 분산 분석
      • 두 개 이상의 집단간 비교를 수행하고자 할 때 집단 내의 분산
      • 복수의 집단을 비교할 때 분산을 계산함으로써 집단 간에 통계적인 차이를 판정
    • 주성분 분석
      • 많은 변수의 분산 방식의 패턴을 간결하게 표현하는 주성분 변수를 원래 변수의 선형결합으로 추출
  • 데이터 마이닝 기반 분석모형 설정
    • 데이터 마이닝은 대용량 데이터로 부터 패턴,관계, 규칙 등을 탐색하고 모델화하여 정보나 지식을 추출하는 과정
    • 모델 분류
      • 분류 모델 : 범주형 변수 혹은 이산형 변수등의 범주를 예측하는 것
        • 통계적 기법 : 다변량 통계이론에 근거한 기법
          • 로지스틱 회귀분석과 다르게 종속변수가 서열형, 범주형, 명목형일 때 사용됨
          • 어느 집단에 분류될 수 있는지 분석하고 예측하는 모델 개발
        • 트리 기반 기법 : CART 알고리즘 사용
        • 최적화 기법 : 서포트 벡터머신 등을 사용
        • 머신러닝 : 인간의 학습 능력을 컴퓨터에서 구현, 역전파 알고리즘 사용
      • 예측모델
        • 회귀 분석
        • 의사결정나무
        • 시계열 분석 : 시간으로 관측되는 자료 분석하여 미래 예측
        • 인공신경망 : 뉴런이 전기신호를 전달하는 모습을 모방한 예측 모델
      • 군집화 모델 (Clustering)
        • 계층적 방법 : 응집 분석법, 분할 분석법
        • 비 계층적 방법 : K 평균 군집법
      • 연관규칙 모델 : 장바구니 분석, 연관된 규칙을 도출하는 기법
  • 머신러닝 기반 분석모형 선정
    • 지도학습
      • 정답이 존재하는 학습데이터 통해 컴퓨터 학습
      • 설명변수와 목적변수 간의 관계성을 표현해내거나 미래 관측을 예측해내는것에 초점
    • 지도학습 유형
      • 로지스틱 회귀 : 반응변수가 범주형인 경우 적용되는 회귀 분석 모형
      • 인공신경망 분석 (ANN) : 인간의 뉴런 구조를 모방하여 만든 기계학습 모델
      • 의사결정 나무
      • 서포트 벡터 머신
      • 랜덤 포레스트
      • 감성 분석 : 어떤 주제에 대한 주관적인 의견들을 텍스트로부터 뽑아내는 분석
    • 비지도 학습
      • 입력데이터에 대한 정답이 없는 상태에서 어떻게 구성되었는지를 알아내는 학습법
      • 비지도 학습은 목적변수에 대한 정보 없이 학습이 이루어짐
    • 비지도 학습 특징
      • 현상의 설명, 특징 도축, 패턴 도출 등에 사용
      • 사전 정보가 없는 상태에서 패턴을 발견하므로 데이터 마이닝의 성격이 강함
      • 군집화, 차원축소 기법, 연관 관계분석, 자율학습 인공신경망 등이 있음
  • 변수에 따른 분석 기법 선정
    • 변수의 개수에 따른 분석기법
      • 단일변수
      • 이변수
      • 다변수
  • 분석모형 활용 사례

    • 연관 규칙 학습

      • 변인간에 주목할만한 상관관계가 있는지 찾아내는 방법
      • 커피를 구매하는 사람이 탄산음료를 더 많이 사는가?
    • 분류 분석

      • 문서를 분류하거나 조직을 그룹으로 나눌때 특성에 따라 분류
      • 이 사용자는 어떤 특성을 가진 집단에 속하는가
    • 유전자 알고리즘

      • 최적화가 필요한 문제의 해결책을 자연선택, 돌연변이 등과 같은 메커니즘을 통해 점진적 진화
      • 응급실에서 응급 처치 프로세스를 어떻게 배치하는 것이 가장 효율적인가
    • 기계학습

      • 알려진 특성을 활용하여 훈련 데이터를 학습시키고 예측하는 기법
      • 기존의 시청 기록을 바탕으로 어떤 것을 가장 보고싶어 할까
    • 회귀분석

    • 감성분석

    • 소셜네트워크 분석

분석 모형 정의

  • 분석 모형 정의 개념
    • 분석 모형 정의는 분석 모형을 선정하고 모형에 대한 적합한 변수를 선택하여 모형의 사양을 작성하는 기법이다.
    • 파라미터
      • 모델 내부에서 확인이 가능한 변수
      • 예측을 수행할때, 모델에 의해 요구되어지는 값들
      • 파라미터가 모델의 성능을 결정
      • 파라미터는 측정되거나 데이터로부터 학습
      • 사람에 의해 수작업으로 측정되지 않음
    • 하이퍼 파라미터
      • 모델에서 외적인 요소로 데이터 분석을 통해 얻어지는 값이 아니라 사용자가 직접 설정해주는 값
      • 모델의 파라미터값을 측정하기 위해 알고리즘 구현 과정에서 사용
      • 하이퍼 파라미터는 주로 알고리즘 사용자에 의해 결정
      • 경험에 의해 결정 가능한 값
      • 예측 알고리즘 모델링의 성능 등의 문제를 위해 조절
  • 분석 모형 정의 고려사항
    • 분석대상이 너무 간단하면 과소적합, 복잡하면 과대적합이 발생하므로 적절한 모델 사용
    • 부적합 모형 현상
      • 모형 선택 오류 : 적합하지 않은 함수 모형 생성
      • 변수 누락
      • 부적합 변수 생성
      • 동시편향 : 종속변수가 연립방정식의 일부인 경우 동시편향 발생

분석 모형 구축 절차

  1. 요건 정의
    • 분석과제 정의를 통해 도출된 내용 정의로 구체화
    • 분석 요건 도출
      • 종합적으로 적합성 검토
      • 분석업무의 배경, 기대효과 등을 사전 정의
      • 보안정책을 누락없이 식별
    • 수행방안 설계
      • 간단한 탐색적 분석 수행
      • 데이터베이스 접근 환경을 구축
      • WBS : 작업분해체계 - 항목간 선·후행 관계를 검토, 일정을 조율
    • 요건 확정
  2. 모델링
    • 모델링 마트 설계 및 구축
      • 분석 대상 데이터 획득
      • 변수들을 식별
      • 모델마트 설계 및 구축
    • 탐색적 분석과 유의변수 도출
      • 시뮬레이션 통해 분석 모형 타당성 검토
      • 최적화 위해 유의성을 반복적으로 보정
      • 예상 소요 시간 추정
      • 추가변수 개발
    • 모델링
      • 시뮬레이션 및 최적화 기법
      • 데이터 마이닝 모델링은 통계적 모델링이 아니므로 지나치게 통계적 가설이나 유의성을 적용하지 않음
    • 모델링 성능 평가
      • 데이터 마이닝 에서는 정확도, 정밀도, 재현율, 향상도 등의 값으로 판단
      • 시뮬레이션에서는 처리량, 평균대기시간 등의 지표 활용
      • 최적화에서는 최적화 이전의 객체 함숫값과 최적화 이후의 값의 차이 구하여 평가
      • 분석 모형이 적합한지 판단 기준을 수립하고 분석 모형을 조정, 비교분석
  3. 검증 및 테스트
    • 운영 상황에서 실제 테스트
      • 업무 프로세스에 가상으로 적용해 검증하는 단계
      • 유사 운영환경 구축
      • 모형 테스트 위한 절차 설계
      • 테스트결과 분석
      • 최종 테스트 결과를 실제로 적용
    • 비즈니스 영향도 평가
      • ROI를 산출해 해당 분석에 투자한 비용 대비 재무효과가 200~300%이상임을 증명
      • 투자 대비 효과 정량화 기법으로 비즈니스 영향도 평가
  4. 적용
    • 운영 시스템에 적용과 자동화
      • 실제운영에 적용하여 DBMS에 성과를 기록, 조기경보 시스템 구성
      • R STUDIO의 SHINY 이용 모델링 결과를 배포
    • 주기적 리모델링
      • 정기적으로 재평가에 필요시 재조정

분석 도구 선정

  • R : S언어 기반으로 만들어진 오픈 소스 프로그래밍 언어
    • 기능
      • 패키지 직접 추가 사용 가능
      • 강력한 시각화
      • R과함께 필수패키지 설치와 다양한 패키지 존재
    • 도구
      • CRAN을 통해서 사용가능한 테스트 데이터를 받을 수 있음
    • 환경
      • 다양한 OS 지원
      • 인터프리터 언어라는 이유로 처리속도가 느리다는 평도 존재
  • Python : R과 거의같은 작업 수행이 가능한 C언어 기반의 오픈 소스 프로그래밍 언어이다.
    • 학습이 쉬움
    • 들여쓰기 문법 사용
    • 좋은 시각화 라이브러리 있지만 R과 비교해서는 적음
    • 대표적인 전용 IDE가 없음
    • 다양한 OS, 패키지

데이터 분할

  • 데이터 분할
    • 학습용 데이터, 검증용 데이터, 평가용 데이터로 분할하는 것
    • 과대적합 문제를 예방하여 2종오류 방지
    • 고려사항
      • 평가용 데이터는 학습과정에 사용 x
      • 일반적으로 학습과 평가 비율을 7:3 비율 사용

2. 분석기법 적용

회귀분석

워낙 중요하고 식이 많이 등장하며 많이 다뤘고, 다룰 내용이라 핵심을 짚고 넘어가겠다.

추후에 따로 만들어서 정리해야하는 파트이다.

  • 회귀분석
    • 데이터가 선형성, 독립성, 등분산성, 비상관성, 정상성의 가정을 만족시킬 수 있어야 한다.
    • 회귀 모형 가정 검증 : 단순선형과 다중선형 이 있다. 단순은 산점더를 활용
  • 회귀분석 유형
    • 단순회귀 : 독립1개 종속변수와의 관계가 직선
      • 가장 단순한 모형
      • 최소제곱법을 사용하여 추정
    • 다중회귀
      • 통계적 유의성은 F-통계량으로 확인
      • F통계량의 p값이 유의수준보다 작으면 회귀식은 통계적으로 유의
  • 최적 회귀방정식의 선택
    • 전진선택법
    • 후진제거법
    • 단계적 방법
  • 단순 선형 회귀분석 코드 해석
    • lm() : 단순 회귀 모형을 수행하는 함수
    • Residual : 예측하고자 하는 변수의 실제값과 회귀 분석으로 얻어진 값 사이에서 표준오차로 인해 발생한 차이
    • Coefficients : 회귀계수
    • Significance stars(*) : 계산된 p-value에 따라 별포로 나타내는 중요도 수준
    • Multiple R-squared : 결정계수 R^2, 모델에 의하여 해석되는 예측의 변동량, 1에 가까운 값이 최적모델
    • Adjusted R-squared : 수정된 결정계수
    • F-statistic : F-통계량
    • DF : 자유도
    • p-value : 유의수준으로 p-값이 작을수록 신뢰구간에 포함

로지스틱 회귀 분석

식 부분은 역시 따로 정리하겠다.

  • 로지스틱 회귀분석
    • 반응변수가 범주형인 경우 적용되는 회귀분석 모형
    • 새로운 설명변수 값이 주어질 때 반응 변수의 각 범주에 속할 확률이 얼마인지를 추정하여 추정 확률을 기준치에 따라 분류하는 목적으로 사용
    • 모형의 적합을 통해 추정된 확률을 사후 확률로도 부른다.
  • 로지스틱 회귀분석 코드해석
    • glm() : 로지스틱 회귀 모형을 수행하는 함수
    • cdplot() : 연속형 변수의 변화에 따른 범주형 변수의 조건부 분포 조회
    • step() : 예측변수가 여러 개인 모형의 적합시 변수 선택법을 적용하기 위해 사용되는 함수
    • anova() : 모형의 적합 단계별로 이탈도의 감소량과 유의성 검정 결과를 제시

의사결정 나무

  • 의사결정나무
    • 분류함수를 활용하여 의사결정 규칙으로 이루어진 나무모양으로 그리는 기법
    • 뿌리마디, 자식마디, 부모마디, 끝마디, 중간마디, 가지, 깊이 등의 요소로 구성
    • Tree 구조를 생각하면 된다.
    • 해석력과 예측력 : 적격 부적격 판정에는 해석력에, 수요 예측에는 예측력에 집중한다.
  • 의사결정 나무의 분석
    • 분석과정
      1. 의사 결정 나무 성장 : 분리규칙과 정지규칙을 따라 성장시킴
      2. 가지치기 : 분류 오류의 위험이 높거나 부적절한 추론의 경우 제거
      3. 타당성 평가
      4. 해석 및 예측
    • 의사 결정 나무의 성장
      • 분류 규칙 : 불순도 감소량을 가장 크게하는 분할결정이 최적의 분할결정
      • 분리 기준 : 입력변수 선택, 범주의 병합이 이루어질 기준
        • 목표변수의 분포를 구별하는 정도를 순소도 불순도에 의해서 측정
        • 순수도가 증가하도록 마디 형성 (목표변수에 특정 범주에 개체들이 속하도록)
      • 이산형 목표변수에 사용되는 분리기준
        • 카이제곱 통계량의 p값
        • 지니지수 : 불순도 측정 지수
        • 엔트로피 지수
      • 연속형 목표변수 분리기준
        • 분산 분석에서 F-통계량
        • 분산의 감소량
      • 정지 규칙 : 더이상 분리 일어나지 않고 마디가 끝나는 것, 깊이를 지정
    • 나무의 가지치기
      • 과대적합, 과소적합을 피하기위해 가지치기 실행
  • 불순도의 여러가지 측도
    • 카이제곱 통계량 : 데이터의 분포와 사용자의 기대 분포 사이의 차이를 나타내는 측정값
    • 지니지수 : 노드의 불순도를 나타내는 값, 클수록 이질적이고 순수도 낮음
    • 엔트로피 지수 : 무질서 정도, 클수록 순수도 낮음
  • 불순도의 여러 가지 측도(알고리즘)

    • CART

      • 이진트리형태로 분류
      • 가장 널리 사용되는 의사결정나무 알고리즘
      • 성취도 좋은 변수 및 수준을 찾는것에 중점
      • 범주형일 경우에는 지니지수 연속형일 경우에는 이진분리
    • C4.5와 C5.0

      • 가지치기 사용할 때 학습자료를 사용
      • 다지분리가 가능
    • CHAID

      • AID 발전시킨 알고리즘
      • 가지치기 안하고 적당한 크기에서 성장 중단, 반드시 범주형 변수
      • 다지분리, 하나의 부마디 생성
    • QUEST

      • 편향이 심한 CART 개선한 알고리즘
      • 편향이 거의 없음
      • 분리 변수 선택과 분리점 선택의 두 단계로 나누어 실행
    • 요약표

      구분 CART C5.0 CHAID QUEST
      목표변수 범주형, 연속형 범주형 범주형, 연속형 범주형
      예측 변수 범주형, 연속형 범주형, 연속형 범주형 범주형, 연속형
      분리 기준 지니 지수, 분산의 감소량 엔트로피 지수 카이제곱 통계량, F검정 카이제곱 통계량, F검정
      분리 방법 이진분리 다지 분리 다지 분리 이진 분리
  • 의사결정 나무 활용 및 장단점
    • 활용
      • 세분화 : 비슷한 특성의 그룹으로 분할하여 특성을 발견하고자 할때
      • 분류 : 예측변수들에 근거해서 목표변수 범주를 몇개의 등급으로 분류하고자 할때
      • 예측 : 자료에서 규칙을 찾아서 미래를 예측하고자 할때
      • 차원축소 및 변수선택 : 목표변수에 큰 영향을 미치는 변수를 구분하고자 할때
      • 교호작용 효과의 파악 : 여러 개의 예측변수들을 결합하여 목표변수에 작용하는 규칙을 파악하고자 할때 (교호작용 : 독립변수간의 상호작용이 종속변수에 영향을 미치는 현상)
    • 장점
      • 해석의 용이성
      • 상호작용 효과의 해석 가능
      • 비모수적 모형 : 선형성이나 정규성 등분산성 등의 가정이 필요가 없음
      • 유연성과 정확도가 높음 : 대용량 데이터에서도 빠르게 만들 수 있음, 모형 분류 정확도 높음
    • 단점
      • 비연속성 : 경계점 근방에서는 예측오류가 클 가능성 존재
      • 선형성 또는 주효과의 결여 : 다른 예측 변수와 관련시키지 않고 각 변수의 영향력을 해석할 수 없음
      • 비안정성 : 학습용자료에만 의존하여 불안정하며 과대적합 발생가능성

인공 신경망

  • 인공신경망 (ANN)
    • 1세대
      • 최초제안
      • 퍼셉트론이라는 선형 분류가 가능한 순방향 신경망
      • XOR 선형 분리 불가 문제
    • 2세대
      • 다층 퍼셉트론, 역전파 알고리즘
      • 은닉층을 통해 XOR 문제를 해결
      • 과적합 문제, 사라지는 경사현상 문제
    • 3세대
      • 딥러닝 활용 (알파고)
      • 과적합 문제 및 기울기 소실 문제 해결
    • 퍼셉트론
      • 인간의 신경망에 있는 뉴런의 모델을 모방하여 입력층, 은닉층,출력측으로 구현
      • 입력값, 가중치, 순 입력함수, 활성함수, 예측값으로 구성
      • 입력값과 가중치를 순 입력함수에서 각각 곱하고 모두 더해서 비교해가며 가중치를 업데이트하고 반복하여 학습
      • XOR 선형분리 문제점
        • AND,OR 가능 but XOR 불가 그래서 다층 퍼셉트론으로 해결
    • 다층 퍼셉트론
      • 하나이상의 은닉층을 두어 비선형적 데이터에 대해 학습 가능
      • 시그모이드 함수 사용
      • 문제점
        • 과대적합 : 학습데이터 부족하여 학습데이터에서만 잘되고 실제 데이터에서 안됨
        • 기울기소실 : 편미분 진행할수록 0으로 근접해져 소실됨
  • 뉴런의 활성화 함수
    • 순 입력함수로부터 전달받은 값을 출력값으로 변환해 주는 함수
    • 계단함수
    • 부호함수 : 임계 값을 기준으로 양, 음의 부호 출력
    • 시그모이드 함수 Y=1/(1+e^-x)
    • tanh 함수 : 하이퍼볼릭 탄젠트 함수, 시그모이드의 기울기 소실 문제를 해결
    • ReLU 함수 : x값이 0보다 큰 경우 y값도 지속적으로 증가, 시그모이드 기울기 소실 해결, x<0인경우 기울기가 0이라 뉴런이 죽을 수 있는 단점
    • Leaky ReLU : ReLU함수의 뉴런이 죽는 현상 해결
    • 소프트맥스 함수 : 출력값이 여러개로 주어지고 목표치가 다범주의 경우 각 범주에 속할 사후 확률을 제공함

서포트 벡터 머신

  • 서포트 벡터
    • 데이터를 분리하는 초평면 중에서 데이터들과 가장 먼 초평면을 선택하여 분리하는 지도학습 기반의 이진 선형분류 모델
    • 기계학습의 한 분야로 사물인식, 패턴인식 등 다양한 분야에서 사용
    • 최대마진을 가지는 비확률적 선형판별에 기초한 이진분류기이다.
  • 서포트 벡터 특징
    • SVM은 공간상에서 최적의 분리 초평면을 찾아 분류 및 회귀 수행
    • 변수 속성 간의 의존성은 고려 x, 모든 속성을 활용하는 기법
    • SVM은 훈련 시간이 상대적으로 느리나, 정확성이 뛰어남
  • 서포트 벡터 머신 종류

    • 하드 마진 SVM
      • 오분류 허용 x
      • 노이즈로 인하여 최적의 결정 경계를 잘못 구할 수 있음
    • 소프트 마진 SVM
      • 오분류 허용
      • 보통 하드마진 SVM 적용 힘들어 소프트 많이 씀
  • 서포트 벡터 머신의 구성요소

    • 결정 경계 : 데이터 분류의 기준이 되는 경계
    • 초평면 : n차원 공간의 (n-1)차원 평면
    • 마진 : 결정 경계에서 서포트 벡터까지의 거리, 최대화하는 것이 최적의 결정경계
    • 서포트 벡터 : 결정 경계와 가장 가까이 있는 데이터들의 집합
    • 슬랙 변수 : 완벽한 분리가 불가능 할때 선형적 분류 위해 허용된 오차를 위한 변수
  • 서포트 벡터 머신 적용 기준
    • 선형으로 분리가 가능한 SVM
      • 최적의 결정경계를 기준으로 1과 -1로 구분하여 분류 모형으로 사용
    • 선형으로 분리 불가능한 SVM
      • 저차원 공간을 고차원 공간으로 매피할 경우 발생하는 연산의 복잡성은 커널 트릭을 통하여 해결 가능
      • 커널 함수를 이용하여 고차원 공가능로 매핑할 경우에 증가하는 연산량의 문제를 해결하는 기법
    • 2차원에서 분류 못하면 3차원으로 매핑하여 선형 분류 가능
    • 다항식 커널, 가우시안RBF 커널, 시그모이드 커널 등이 있다.
    • 커널 함수 선택에는 명확한 규칙 x, 정확도 큰 차이 x

연관성 분석

  • 연관성 분석
    • 데이터 내부에 존재하는 항목간의 상호 관계 혹은 종속 관계를 찾아내는 분석기법
    • 조건과 반응을 연결하는 분석으로 장바구니 분석, 서열 분석 이라고도 한다.
  • 연관성 분석 특징
    • 목적 변수가 없어 분석 방향이나 목적이 없어도 적용 가능
    • 조건 반응으로 표현되어 결과를 이해하기 쉽다.
  • 연관성 분석의 주요 용어

    • 지지도 : 전체 거래중 항목 A와 B를 동시에 포함하는 거래의 비율

      (A와 B가 동시에 포함된 거래수 ) / (전체 거래수)

    • 신뢰도 : A상품을 샀을 대 B 상품을 살 조건부 확률에 대한 척도

      (A와 B가 동시에 포함된 거래수) / (A를 포함하는 거래 수)

    • 향상도 : 규칙이 우연에 의해 발생한 것인지를 판단하기 위해 연관성 정도를 측정하는 척도

      • 향상도 = 1 : 독립적 관계
      • 향상도 >1 : 양의 상관관계
      • 향상도 < 1 : 음의 상관관계

군집 분석

  • 군집분석 (Cluster Analysis)
    • 여러개의 변수중에서 유사성에만 기초하하여 분류하는 것
    • 계층적 군집 (Hierarchical Clustering)
      • 유사한 개체를 군집화 하는 과정을 반복하여 군집을 형성
      • 병합적 방법 : 작은 군집으로 부터 시작하여 군집을 병합하는 방법
      • 분할적 방법 : 큰 군집으로부터 출발하여 군집을 분리해 나가는 방법
    • 계통도 : 군집의 결과는 계통도 또는 덴드로그램으로 형태 결과를 나타냄
      • 항목간의 거리, 군집간의 거리, 군집내 항목간 유사정도 파악해서 견고성 해석 가능
    • 군집간의 거리측정 방법
      • 최단 연결법 : 가장 가까운관측값 - 단일연결법 이라고도 함
      • 최장 연결법 : 가장 먼 관측값 - 완전연결법 이라고도 함
      • 중심연결법 : 두 군집의 중심간의 거리 측정, 가중평균으로 중심 측정
      • 평균연결법 : 모든 항목에 대한 거리 평균을 구하면서 군집화
      • 와드 연결법 : 군집내에서 오차 제곱합에 기초하여 군집 수행
    • 군집간의 거리계산
      • 연속형변수 거리
        • 유클리드 거리 : 일반 피타고라스 생각하면 됨, 제곱 마이너스
        • 맨하튼 거리 : 두 점 간 차의 절대값을 합한값
        • 민코프 스키 거리 : m차원 민코프스키 공간에서의 거리
          • m=1일 때 맨하튼거리 m=2일때 유클리드 거리
        • 표준화 거리 : 변수의 측정단위를 표준화한 거리
        • 마할라노비스 거리 : 변수의 표준화와 함께 변수 간의 상관성을 동시에 고려한 통계적거리
      • 명목형 변수 거리
        • 개체 i와 j에서 다른 값을 가지는 변수의 수 / 총 변수의 수
        • 단순 일치 계수 : 매칭된 속성의 개수 / 속성의 개수
        • 자카드 계수 : 두집합의 유사도 측정, 동일할시 1 완전다를시 0
      • 순서형 자료
        • 순위상관계수 : 값에 순위를 매겨 그 순위에 대해 상관계수를 구하는 방법
  • k평균 군집
    • k평균 군집 : k개의 군집수를 초깃값으로 지정하고 각각 할당해 주고 평균값 계산 재할당 거쳐 최중군집을 형성하는 방법
    • 절차
      1. k개 객체 선택
      2. 할당
      3. 중심 갱신
      4. 반복
    • 이상값에 민감하게 반응하는 단점
    • 단점을 보완하기 위해 k-중앙값 군집을 사용하거나 이상값을 미리 제거한다.
  • 혼합분포 군집
    • 모수와 가중치를 추정하는 방법, k개의 모형중 어느모형으로부터 나왔을 확률이 높은지에 따라 군집의 분류가 이루어짐
    • 혼합모형 모수추정이 어려워 최대가능도 추정을 위해 EM 알고리즘 등을 이용
    • EM 알고리즘
      • 관측되지 않은 잠재변수에 의존하는 확률 모델, 최대 가능도 나 최대 사후확률을 갖는 모수의 추정값을 찾는 반복적인 알고리즘
      • 최대 사후 확률 : 사전확률과 결합된 확률
      • 최대 가능도 : 원하는 값들이 나올 확률을 최대로 만드는 모수를 선택하는 방법
      • EM알고리즘 진행과정
        • E단계 : 잠재변수 Z의 기대치를 계산
        • M단계 : Z의 기대치를 이용하여 파라미터 추정
    • 혼합 분포 군집의 특징
      • 확률분포를 이용함
      • 군집을 몇개의 모수로 표현할 수 있음, 서로 크기가 다른 군집을 찾을 수 있음
      • EM 알고리즘을 이용하면 데이터가 커지면 시간이 걸릴 수 있따.
      • 이상값에 민감하다
      • 군집의 크기가 너무 작으면 추정의 정도가 떨어짐
  • SOM - 자기 조직화 지도
    • 대뇌피질과 시각피질의 학습과정을 기반으로 모델화한 인공신경망, 자율 학습 방법에 의한 클러스터링 방법을 적용한 알고리즘
    • 형상화는 입력변수의 위치 관계를 그대로 보존
    • 구성
      • 입력층
        • 입력 벡터를 받는 층, 입력변수의 개수와 동일하게 뉴런수 존재
        • 입력층의 자료는 학습을 통하여 경쟁층에 정렬, 이를 지도라고 부름
        • 입력측의 뉴런들은 경쟁층과 연결되어 있다.
      • 경쟁층
        • 2차원 격자로 구성된 층
        • SOM은 경쟁 학습으로 각각의 뉴런이 입력 벡터와 얼마나 가까운가를 계산, 연결강도 재조정 하여 가장 유사한 경쟁층 뉴런이 승자가 됨
        • 승자 독식 구조로 인해 경쟁층에는 승자 뉴런만이 나타남
    • SOM학습 알고리즘
      1. 초기화 : SOM 맵의 노드에 대한 연결 강도를 초기화
      2. 입력벡터제시
      3. 유사도 계산 : 유클리드 거리 이용
      4. 프로토타입 벡터 탐색 : 입력벡터와 가장 짧은 거리의 프로토타입 벡터를 탐색
      5. 강도 재조정
      6. 반복 : 2단계로 가서 반복

고급분석기법 - 범주형 자료분석

  • 범주형 자료분석
    • 종속변수가 하나이고 범주형인 데이터를 분석하여 유의성과 독립변수의 유의성을 알아보는 분석방법
    • 척도에 따라 분석기법이 다름
      • 범주형-범주형 : 분할표 분석, 교차분석, 피셔의 정확검정
      • 수치형-범주형 : 로지스틱 회귀분석
  • 분할표 분석

    • 분할표를 이용한 범주의 자료 분석은 상대 위험도와 승산비를 통하여 분석

    • 행은 독립변수, 열은 종속변수

    • 마지막 행, 열에는 총계 데이터를 표시 이를 Margin Sum이라고 부름

    • 상대 위험도

      • PR : 관심 집단의 위험률과 비교하여 집단 위험률에 대한 비율 이다.
      • RR = 관심 짐단의 위험률 / 비교 집단의 위험률
      • RR < 관심 집단의 특정 사건 발생 활률이 낮음
      • RR = 1 관심 집단과 사건에 연관성 x
      • RR >1 관심 집단과 사건 연관성 확률 높음
    • 승산(Odds)

      • 특정 사건이 발생활 확률에 대한 그 사건이 발생하지 않을 확률의 비
      • 이길확률 / 1-이길확률
    • 승산비

      • 특정 조건이 있을 때의 성공 승산을 다른 조건이 있을 때의 성공승산으로 나눈 값
  • 카이제곱 검정
    • 적합도 검정
      • 적합도 검정은 집단의 분포가 주어진 특정 이론을 따르는지 검정하는 기법
      • 적합도 검정의 자료를 구분하느 범주가 상호 배타적
      • 귀무가설은 표본집단의 분포가 주어진 특정 분포를 따르는 것
      • 관칠 빈도와 기대 빈도의 차이가 클수록 귀무가설을 기각할 확률 높음
      • (자유도) = (범주의 수) -1
      • 적합도 검정 방법
        1. 가설설정 2. 카이제곱값 구하기 3. 유의성 검정
    • 독립성 검정
      • 여러 범주를 가지는 2개의 요인이 독립적인지, 연관성있는지 검정
      • 독립검정 자유도 = (범주 1의 수 -1) x (범주 2의 수 -1)
    • 동질성 검정
      • 독립적인 부모집단으로 부터 정해진 표본의 크기만큼 자료를 추출하는 경우에 관측값들이 정해진 범주내에서 서로 동질한지 여부를 검정
      • 부모집단의 동질성 여부 검정
      • 독립성 검정과 개념상 차이 계산방식은 동일
  • 피셔의 정확 검정
    • 분할표에서 표본 수가 적거나 표본이 셀에 치우치게 분포되어 있을경우 피셔의 정확 검정을 실시한다.
    • 범주형 데이터에서 기대빈도가 5 미만인 셀이 20%를 넘는 경우 카이제곱 검정의 정확도가 떨어지므로 피셔의 정확검정을 사용

다변량 분석

  • 상관분석
    • 피어슨의 상관계수
      • 등간척도나 비례 척도에에서 두 데이터의 공분산을 표준편차의 곱으로 나눈값
      • 두 변수간 선형관계의 크기를 측정하는 값으로 비 선형적인 상관관계는 나타내지 못한다.
      • 피어슨 상관계수는 모집단, 표본에 적용할 수 있다.
      • 모상관계수와, 표본상관계수가 있다.
    • 스피어만의 상관계수
      • 두 변수 간의 비선형적인 관계도 나타낼 수 있는 값이다.
      • 두 변수를 모두 순위로 변환시킨 후 두 순위 사이의 스피어만 상관계수를 구한다.
  • 다차원 척도법 (MDS)
    • 개체들 사이에서 유사성, 비유사성을 측정하여 2차원 또는 3차원 공간상에 점으로 표현하여 개체 사이의 집단화를 시각적으로 표현하는 분석방법
    • 방법
      • 유클리드 거리행렬 이용 거리 측정
      • 스트레스 값을 이용항 관측 대상들의 적합도 수준 평가
      • 스트레스값은 0에 가까울 수록 적합, 1에 가까울수록 x
    • 종류
      • 계량적 다차원 척도법 : 구간척도나 비율 척도에 사용
      • 비 계량적 다차원 척도법 : 데이터가 순서 척도인 경우에 사용
  • 주성분 분석 (PCA)
    • 상관관계가 있는 고차원 자료를 자료의 변동을 최대한 보존하는 저차원 자료로 변환하는 차원 축소 방법
    • 차원 축소는 고유값이 높은 순으로 정렬해서 높은 고유값을 가진 고유벡터만으로 데이터를 복원
    • 특징
      • 자료의 차원을 축약시키는데 주로 사용
      • 누적 기여율이 85% 이상이면 주성분의 수로 결저앟ㄹ 수 있다.

시계열 분석

  • 시계열 분석

    • 시계열로 관측되는 자료를 분석하여 미래 예측하기 위한 분석
    • x축에는 시간 y축에는 관측값을 나타내어 추세를 분석
    • 정상성 : 시점에 상관없이 시계열의 특성이 일정
      • 평균이 일정하다
      • 분산이 시점에 의존하지 않는다.
      • 공분산은 단지 시차에만 의존하고 시점 자체에는 의존하지 않는다.
  • 시계열 모형

    • 자기 회귀 모형 : 현시점의 자료가 p 시점 전의 유한개의 과거 자료로 설명 될 수 있는 의미
      • 1차 자기 회귀 모형 : 과거의 1시점의 자료에만 영향 주는 경우 - AR(1)
      • 2차 자기 회귀 모형 : 현시점에서 과거 2 시점까지의 자료에만 영향을 주는 경우 - AR(2)
    • 이동 평균 모형 : 시간이 지날수록 관측치의 평균값이 지속적으로 증가하거나 감소하는 시계열 모형 MA 모형
      • 현시점의 자료를 유한개의 백색잡음의 선형결합으로 표현, 항상 정상성만족
      • 자신의 과거 값을 사용하여 설명하는 모형으로 백색잡음의 현재 값과 자기 자신의 과거 값의 선형 가중합으로 이루어진 정상 확률 모형
      • 모형에 사용하는 시계열 자료의 시점에 따라 1차, 2차, ... P차 등을 사용하지만, 정상 시계열 모형에서는 주로 1, 2차를 사용한다.
      • 1차 이동평균 모형 : 같은시점의 백색잡음과 바로 전 시점 백색잡음의 결합으로 이루어진 모형 - MA(1)
      • 2차 이동평균 모형 : 같은 시점의 백색잡음과 과거 2 시점까지의 백색잡음의 결합으로 이루어진 모형 - MA(2)
    • 자기 회귀 누적 이동평균모형 (ARIMA)
      • 시간 단위로 지표를 리뷰하여 트렌드를 분석하는 기법
      • 비정상 시계열 모형, AR/MA/ARMA 모형으로 정상화 할 수 있다.
      • 자기 회귀 누적 이동평균모형 차수
        • p : AR 모형과 관련
        • q : MA 모형과 관련이 잇는 차수
        • d : ARIMA에서 ARMA로 정상화할 때 몇 번 차분을 했는지를 의미
반응형