본문 바로가기

공부/빅데이터 분석기사

빅데이터 분석 기획

반응형

빅데이터 분석기획

1. 빅데이터의 이해

빅데이터 특징

  1. 빅데이터 개념

    빅데이터는 정형+비정형(반정형)

    DIKW 피라미드로 표현가능 data, information,Knowledge, Wisdom

    • 데이터는 단순한 데이터
    • 정보는 의미가 도출된 데이터
    • 지식은 일반화 시킨 결과물
    • 지혜는 창의적 아이디어
  2. 특징

    • 전통의 3V
      • Volume 규모
      • Variety 다양성
      • Velocity 속도
    • 5V, 7V
      • Veracity , Value 추가 (신뢰성, 가치 )
      • Validity, Volatility 추가 ( 정확성, 휘발성)
  3. 빅데이터의 유형

    1. 정형 - 스키마 구조 DBMS에 저장될 수 있는 구조 Oracle, MS-SQL
    2. 반정형 - 데이터 구조에 대한 메타정보 포함 (XML, HTML, JSON)
    3. 비정형 - 데이터객체로 구분 -그냥 일반 파일들
  4. 데이터 지식경영

    1. 암묵지 - 겉으로 드러나지 않는지식 (공통화, 내면화)
    2. 형식지 - 문서나 메뉴얼 처럼 형상화된 지식( 표출화, 연결화)

빅데이터의 가치

  1. 빅데이터의 가치
    1. 경제적자산
    2. 불확실성제거
    3. 리스크감소
    4. 스마트한경쟁력
    5. 타분야융합
  2. 가치산정 어려운 이유
    1. 데이터 활용방식의 다양화
    2. 새로운 가치 창출
    3. 분석기술의 급속한 발전
  3. 빅데이터 영향
    1. 기업 - 생산성향상, 경쟁력 강화, 혁신수단
    2. 정부 - 환경탐색, 상황분석, 미래대응 가능
    3. 개인
  4. 빅데이터의 위기 요인 및 통제방안
    1. 빅데이터 위기요인
      • 사생활 침해 - 개인정보 유출
      • 책임원칙 훼손 - 알고리즘의 희생양
      • 데이터 오용 - 미래를 예측하는것은 언제나 오류 생김
    2. 빅데이터 위기요인에 대한 통제방안
      • 알고리즘에 대한 접근 허용
      • 책임의 강조
      • 결과기반의 책임 적용

빅데이터 산업의 이해

  1. 빅데이터 산업 개요

    • 클라우딩 컴퓨팅 기술의 발전으로 급격하게 처리비용 감소
    • 클라우딩 컴퓨터란?
      • 다수의 사용자에게 가상화된 컴퓨터의 시스템 리소스 제공
      • 인터넷 기반의 컴퓨팅의 일종, 자신의 컴퓨터 아니고 클라우드 연결된 다른컴퓨터로 처리
  2. 산업별 빅데이터 활용

    의료건강/ 과학기술/ 정보보안/제조공정/소비거래/교통물류

빅데이터 조직 및 인력

  1. 빅데이터 조직 설계

    1. 빅데이터 업무 프로세스

      도입 구축 운영

    2. 조직 구조

      • 집중구조
        • 분석 업무를 별도의 조직에서 담당
        • 우선순위진행가능
        • 업무 중복및 이원화 가능성 높음
      • 기능구조
        • 각각의 부서에 기능을 맡는 것
        • 전사적 핵심분석어렵고 과거에 머무름
      • 분산구조
        • 쉽게생각해서 파견근무라고 생각하면됨
        • 신속한피드백 ,베스트 프랙티스 공유가능
        • 업무과다가 몰릴 수 있음
    3. 조직구조 설계 특성

      • 공식화
      • 분업화
      • 직무전문화
      • 통제범위
      • 의사소통 및 조정
  2. 조직 역량

    1. 역량모델링
      • 소프트 스킬 - 분석의 통찰력, 협력능력, 전달력
      • 하드스킬 - 이론지식, 분석기술 숙련도
  3. 조직성과 평과

    1. KPI 핵심 성과 지표 - 목표가 달성되었는지 그 실적을 추적하기 위한 정량화된 측정지표
    2. CSF 핵심 성공 요인
    3. 목표설정 - 모니터링 - 목표조정 - 평가실시 -결과의 피드백
    4. BSC 관리 (Balanced Score Card) - 균형성과표
      • 성과목표
      • 재무
      • 고객
      • 내부 프로세스
      • 학습,성장

빅데이터 플랫폼

  1. 빅데이터 플랫폼의 개념 - 가치를 추출하기 위한 일련의 과정

  2. 빅데이터 플랫폼 구성요소

    • 수집 : 원천데이터 정,반,비 형 데이터 수집 - 크롤러, EAI
    • 저장 : RDBMS, NoSQL
    • 분석 : 머신러닝, 데이터마이닝, 통계
    • 활용단계 - 데이터 가시화 및 BI(의사결정 프로세스) - 히스토그램, 인포그래픽
  3. 빅데이터 플랫폼 데이터 형식

    • HTML
    • XML : SGML 문서형식을가진 다른 특수한 목적을 갖는 마크업 언어를 만드는데 사용하는 다목적 마크업 언어
    • CSV : Comma Separated Values의 약자, field를 ,로 구분한 텍스트 데이터
    • JSON : JavaScript Object Notation 키-값으로 objects를 전달하는 이루어진 개방형 표준 포맷
  4. 빅데이터 플랫폼 구축 소프트웨어

    • R : 빅데이터분석, S언어 기반, 강력한 시각화
    • Oozie : 워크플로우 관리, 하둡작업을 관리하는 워크플로우 및 코디네이터 시스템
    • Flume : 데이터 수집, 이벤트와 에이전트활용하여 많은양의 로그데이터 수집
    • HBase : 분산 데이터베이스, 컬럼 기반 저장소 HDFS와 인터페이스 제공
    • Sqoop : 정형데이터 수집, SQL to Haddop의 약자, RDBMS에서 HDFS로 데이터수집 혹은 HDFS에서 RDBMS로 데이터를 보내는 기능 수행
  • 분산 컴퓨팅 환경 소프트웨어 구성요소
    • 맵리듀스 : key-value 형태의 데이터 처리
      • Map : key-value 형태로 데이터 취합
      • Shuffle : 데이터를 통합하여 처리
      • Reduce : 맵 처리된 데이터를 정리
    • Yarn : 하둡의 맵리듀스 처리부분을 새롭게 만든 자원 관리 플랫폼
      • 리소스매니저 : 스케줄러 역할, 클러스터 이용률 최적화를 수행
      • 노드 매니저 : 노드 내의 자원을 관리하고 리소스 매니저에게 전달 수행 및 컨테이너 관리
      • 애플리케이션 매니저 : 리소스 매니저와 자원 교섭 책임, 컨테이너를 실행
      • 컨테이너 : 프로그램 구동을 위한 격리 환경을 지원하는 가상화 지원
    • Apache Spark
      • 하둡 기반 대규모 데이터 분산처리 시스템
      • 스칼라, 자바, 파이썬, R 등에 사용
    • HDFS - Haddop Distributed File System
      • 대용량 파일을 분산된 서버에 저장하고 저장된 데이터를 빠르게 처리할 수 있게 하는 하둡 분산 파일 시스템
      • 네임노드(Master)와 데이터 노드(Slave)로 구성
      • 네임노드 : 파일이름 ,권한등의 속성기록
      • 데이터 노드 : 일정한 크기로 나눈 블록 형태로 저장
    • Apache Hadoop
      • HDFS와 Map Reduce를 중심으로 다양한 프로그램으로 구성된 하둡 에코시스템을 가짐
      • 클라우드 플랫폼 위에서 클러스터를 구성해 데이터 분석
  1. 하둡 에코시스템 (Haddop Ecosystem)

    • 하둡 프레임 워크를 이루고 있는 다양한 서브 프로젝트들의 모임
    • 수집, 저장, 처리 기술과 분석, 실시간 및 시각화를 위한 기술로 구분
  1. 수집, 저장,처리
    • 비정형 데이터 수집 : Chukwa, Flume - 대량 로그데이터, Scribe - 실시간 로그
    • 정형 데이터 수집 : Sqoop, Hiho
    • 분산데이터 저장 : HDFS
    • 분산 데이터 처리 : Map Reduce
    • 분산 데이터 베이스 : HBase
  2. 하둡 에코 시스템의 데이터 가공 및 분석, 관리를 위한 주요 기술
    • 데이터 가공 : Pig - API 단순화 SQL과 유사 , Hive - 하둡기반 DW솔루션 HiveQL
    • 데이터 마이닝 : Mahout - 하둡기반 데이터 마이닝 알고리즘 구현
    • 실시간 SQL 질의 : Impala - 하둡기반 SQL 질의 시스템
    • 워크플로우 관리 : Oozie - 워크플로우 및 코디네이터 시스템
    • 분산 코디네이션 : Zookeeper - 분산 환경에서 서버들 간에 상호 조정이 필요한 다양한 서비스 제공

빅데이터와 인공지능

  • 인간의 지적 능력을 모방
  • ai의 분석력과 예측력 + 빅데이터의 신뢰성과 현실성

개인정보보호법,제도

개인정보 보호는 정보 주체의 개인정보 자기 결정권을 철저히 보장하는 활동

  • 개인 정보보호 가이드라인

    • 개인정보 비식별화

    • 개인정보 재식별시 조치 - 파기

    • 민감정보 처리

    • 투명성확보

    • 수집정보의 보호조치

  • 개인정보 관련 법령 - MyData관련 개정 예정

    • 개인정보 보호법
    • 정보 통신망법
    • 신용정보법
    • 위치정보법
    • 개인정보의 안전성 확보조치 기준

개인정보 활용

  • 개인정보 비식별화 개념 : 데이터값 삭제, 가명처리, 총계처리, 범주화 등을 통해 개인정보를 삭제하거나 대체하여 식별할수 없게 만드는것
  • 개인정보 비식별화 절차
    1. 사전검토
    2. 비식별조치
    3. 적적성평가
    4. 사후관리
  • 개인정보 비식별 조치 방법
    • 가명처리 - 휴리스틱 익명화, 암호화, 교환방법
      • 다른값으로 대체
      • 홍길동 -> 김민수
    • 총계처리 - 총계처리 기본방식, 부분집계, 라운딩, 데이터 재배열
      • 개인정보에 대하여 통곗값 적용
      • 홍길동(26), 김민수(22), 이민정(24) -> 나이 평균 24
    • 데이터 삭제 - 속성값 삭제, 준 식별자 제거를 통한 단순 익명화
      • 개인정보 식별이 가능한 특정 데이터값 삭제 처리 기법
    • 데이터 범주화 - 기본방식, 랜덤 올림, 범위 방법, 세분 정보 제한 방법, 제어 올림 방법
      • 단일 식별저옵를 대푯값으로 변환
      • 홍길동(26) -> 홍씨 20대
    • 데이터 마스킹 - 임의 잡음 추가방법, 공백과 대체 방법
      • 개인 식별 정보에 대하여 전체 또는 부분적으로 대체
      • 홍길동(26) -> 홍XX(26)

2. 데이터 분석 계획

분석 로드맵 설정

  • 로드맵 단계
    • 데이터 분석체계 도입
    • 데이터 분석 유효성 검증
    • 데이터 분석 확산 및 고도화

분석 문제 정의

  • 하향식 접근 방법 (Top Down Approach)
    • 분석과제가 정해져 있고 이에 대한 해법을 찾기 위해서 체계적으로 분석하는 방법
    • 문제탐색 - 문제정의 - 해결방안 탐색- 타당성 검토과정을 거쳐 과제 발굴
  • 상향식 접근 방법 (Bottom Up Approach)
    • 문제 정의자체가 어려운 경우 데이터를 기반으로 문제를 지속적으로 개선하는 방식
    • Design Thinking
    • 비지도 학습방법으로 프로토타이핑 접근법을 사용한다.(가설 검증, 테스트 통찰)
  • 대상별 분석 기획 유형

    • 빅데이터 분석은 분석의 대상과 방법에 따라 4가지로 분류된다.

      대상 안다 대상 모름
      방법 안다 Optimization Insight
      방법 모름 Solution Discovery
  • 데이터 분석 과제 추진시 고려해야하는 우선순위 평가기준

    image-20210402004105313

    • 시급성 기준 : 3 - 4 - 2 - 1
    • 난이도 기준 : 3 - 1 - 2 - 4

데이터 분석 방안

  • 데이터 분석 방법론 계층
    • 단계 (Phase) : 산출물이 생성, 버전관리
    • Task : 단계를 구성하는 단위활동
    • Step : 입력자료, 처리 및 도구, 출력자료로 구성된 단위 프로세스
  • 빅데이터 분석 방법론의 분석절차
    • 분석기획
      • 비즈니스 이해 및 범위설정
      • 프로젝트 정의 및 계획수립
      • 프로젝트 위험계획 수립
    • 데이터 준비
      • 필요 데이터 정의
      • 데이터 스토어 설계
      • 데이터 수집 및 정합성 검증
    • 데이터 분석
      • 분석용 데이터 준비
      • 텍스트 분석
      • 탐색적 분석
      • 모델링
      • 모델평가 및 검증
      • 모델 적용 및 운영 방안수립
    • 시스템 구현
      • 설계 및 구현
      • 시스템 테스트 및 운영
    • 평가 및 전개
      • 모델 발전 계획 수립
      • 프로젝트 평가 보고
  • 분석 방법론 유형
    • KDD 분석 방법론 (Knowledge Discovery in Databases)
      • Fayyad가 프로파일링 기술 기반으로 정리한 방법론
      • 선택, 전처리, 변환, 마이닝, 결과평과 5개 단계
    • CRISP-DM 분석 방법론(Cross Industry Standard Process for Data Mining)
      • 현재중단, 6개단계
      • 구성 - 단계, 일반화 태스크, 세분화테스크, 프로세스 실행
      • 단계간 피드백을 통하여 단계별 완성도 높임
      • 업무이해 - 데이터 이해 - 데이터 준비 - 모델링 - 평가 - 전개
    • SEMMA 분석 방법론 (Sampling Exploration Modification Modeling Assessment)
      • SAS사가 주도한 통계중심의 5단계
      • 샘플링 - 탐색 - 수정 - 모델링 - 검증
      • 신경망, 의사결정나무 ,로지스틱 회귀분석 통한 전통적 모델링

분석 작업 계획

  • 데이터 확보 계획
    • 목표정의 - 요구사항도출- 예산안 수립 - 계획 수립
  • 분석절차 및 작업계획
    • 문제인식 - 연구조사 - 모형화 - 자료수집- 자료분석 - 분석결과 공유

3. 데이터 수집 및 저장 계획

데이터 수집 및 전환

데이터 수집 및 전환은 데이터 처리 기술 중 하나이다.

  • 데이터 필터링
  • 데이터 변환
  • 데이터 정제
  • 데이터 통합
  • 데이터 축소

데이터 수집

  • 데이터 수집 프로세스

    • 수집 데이터 도출
    • 목록 작성 : 가능성 / 보안 / 정확성 / 수집 비용
    • 데이터 소유기관 파악 및 협의
    • 데이터 유형 분류 및 확인
    • 수집 기술 선정
    • 수집 계획서 작성
    • 수집 주기 결정
    • 데이터 수집 실행
  • 수집 데이터의 대상

    • 원천 데이터 수집 유형
      • 내부 데이터 : 조직 내부에 데이터 위치, 주로 용이한 정형
      • 외부 데이터 : 조직 외부에 위치, 주로 수집이 어려운 비정형 데이터
    • 원천 데이터 예시
      • 내부데이터
        • 서비스 : SCM, ERP, CRM, 포털
        • 네트워크 : 백본, 방화벽, IPS, IDS
        • 마케팅 : 고객포털
      • 외부데이터
        • 소셜 : SNS, 커뮤티니, 게시판
        • 네트워크 : M2M
        • 공공 : 의료, 지역정보, LOD
  • 데이터 수집 방식 및 기술
    • 정형 데이터 수집 방식 및 기술
      • ETL : Extract Transform Load, 데이터 웨어하우스, 데이터 마트에 저장하는 기술
      • FTP : File Transfer Protocol, TCP/IP 기반으로 파일 송수신, SSH를 적용한 SFTP 사용권고
      • API : Application Programming Interface, 3rd party 소프트웨어, 시스템 간 연동을 통해 실시간으로 데이터 수신가능한 인터페이스 기술
      • DBToDB : 데이터베이스 시스템간 데이터를 동기화 및 전송기능 제공
      • Rsync(Remote Sync) : 서버-클라이언트 방식, 1:1로 파일과 디렉토리 동기화
      • Sqoop : Connector사용 RDB와 Hadoop 사이에 데이터 전송기능 제공, 자동화, 병렬처리
    • ETL
      • DW, DM으로 이동시키기위한 과정
      • ETL 프로세스
        • 추출(Extract) : JDBC, ODBC, 3rd Party Tools 활용
        • 변환(Transform) : 데이터 결합/통합, 데이터 재구성 및 중복제거, Rule 적용
        • 적재(Load) : Insert, Delete, Update, Append 수행
    • FTP
      • TCP/IP 기반 파일을 송수신하기 위한 프로토콜
      • Active FTP : 클라이언트가 데이터 수신받을 포트 알려주는 방식, 20번 포트를 통해 데이터 전송 , 명령은 21번 포트
      • Passive FTP : 서버가 임의의 포트를 알려주면 접속하여 가져가는 방식, 명령은 21번 포트 데이터는 1024 이후의 포트 사용
    • Sqoop
      • 커넥터를 사용 MySQL, Oracle, 메인프레임과 같은 RDBMS에서 HDFS로 데이터를 수집하거나 보내는 기능
      • 특징
        • 벌크 임포트 : 한번에 전송 가능
        • 데이터 전송 병렬화 : 시스템 사용율과 성능 고려 병렬 데이터 전송
        • 직접 입력 제공 : RDB에 매핑해서 HBase와 Hive에 직접 import 제공
        • 프로그래밍 방식의 데이터 Interaction : 자바 클래스 생성을 통한 데이터 상호작용
      • 기능
        • 구조 : 스쿱클라이언트, 스쿱서버
        • 커넥터 : FTP, JDBC, HDFS, 카프카, Kite, SFTP
        • 툴 : Import, Export, Job, Metastore, Merge
  • 비정형 데이터 수집 방식 및 기술
    • 크롤링, RSS, Open API, 스크래파잉, 아파치 카프카
    • 크롤링 Crawling
    • RSS (Rich Site Summary) : XML 기반으로 정보를 배포하는 프로토콜 활용 데이터 수집기술
    • Open API : 응용 프로그램을 통해 실시간으로 데이터를 수신할 수 있도록 공개 API통해 수집
    • 스크래파이 (Scrapy)
      • 특징 : python 기반, 단순한 스크랩과정, 다양한 부가요소
      • 주요기능
        • Spider : 어떤 부분 스크래핑할 것인지 인지를 명시하는 기능
        • Selector : HTML요소를 선택할 수 잇음
        • Items : 사용자 정의 자료구조
        • Pipelines : 결과물을 가공하거나 파일 형태로 저장 제공기능
        • Settings : Spider와 Pipeline을 동작시키기 위한 세부설정
    • 아파치 카프카 (Apache Kafka)
      • 대용량 실시간 로그 처리를 윟나 분산 스트리밍 플랫폼
      • 특징 : 신뢰성(Queue기반), 확장성
      • 주요기능 : 소스, 채널, 싱크, 인터프리터
  • 반정형 데이터 수집 방식 및 기술
    • 센싱, 스트리밍, 플럼, 스크라이브, 척와
    • Flume : 대용량 로그데이터 효율적 처리 위해 이벤트와 에이전트 사용
      • 특징 : 발행/구독 모델, 고가용성 제공, 파일기반 저장방식
      • 주요기능 : 소스, 채널, 싱크
    • Scribe : 실시간 스트리밍 되는 대용량 로그데이터 수집 기술
      • 단일 중앙 스크라이브 서버와 다수의 로컬로 안장성과 확장성 제공
      • 실시간 스트리밍 수집, 확장, 데이터 수집 다양성, 고가용성
    • Chukwa : 컬렉터가 에이전트로 부터 데이터를 수집, 저장, 분석기능 제공
      • 특징 : HDFS 연동, 실시간 분석 제공, Chunk단위 처리
      • 구성 : Agent, Collector
      • 데이터 처리 : Archiving, Demux
    • 플럼, 스크라이브, 척와의 활용성 증가 추세

데이터 유형 및 속성 파악

  1. 데이터 유형
    • 구조관점의 데이터 유형
      • 정형데이터
        • 정형화된 스키마 구조 기반의 형태, Column/Row
        • RDB, 스프레드 시트
      • 반정형
        • 스키마 구조형태 가지고 메타데이터 포함, 일관성은 X
        • XML, HTML과 같은 Node 형태의 구조 가짐
        • XML, HTML, 웹로그, 알람, 시스템로그, JSON, RSS, 센서데이터
      • 비정형
        • 스키마X, 고정필드X
        • SNS, 웹 게시판
    • 시간 관점
      • 실시간 : 센서, 시스템 로그, 네트워크 장비 로그, 알람, 보안장비 로그
      • 비실시간: 통계, 웹로그, 구매정보, 서비스로그
    • 저장 형태 관점
      • 파일 데이터 : 파일형식으로 된것
      • 데이터베이스 데이터 : RDBMS, NoSQL, 인메모리 데이터 베이스, 테이블형식
      • 콘텐츠 데이터 : 텍스트, 이미지, 오디오 등 개별적데이터 객체로 구분
      • 스트림 데이터 : 센서, HTTP 트랜잭션, 알람, 실시간 전송데이터
  1. 데이터 속성 파악

    • 데이터 형태에 따른 분류

      • 정성적 데이터 : 언어, 문자, 비용소모 많음
      • 정량적 데이터 : 수치, 도형, 기호, 비용소모 적음
    • 데이터 속성

      • 범주형 : 질적변수, 순서형, 명목형
        • 명목형 : 변수 크기가 순서와 상관없고 이름만 의미
        • 순서형 : 순서에 따라 등급과 같은 의미 부여 (1등급, 2등급)
      • 수치형 : 양적 변수(몇개인가?), 양적변수, 연속형, 이산형
        • 이산형 : 하나하나 셀수 있는 경우(방문 회수, )
        • 연속형 : 구간안의 모든값을 가질 수 있는 경우 (구간값)
  1. 데이터 속성에 대한 측정 척도

    • 명목 척도 : 범주로 구분, 기호나 숫자 부여, 분류의 수치화, (현역/예비역, 혈액형 A B)
      • Nominal Scale
    • 서열척도, 순위척도 : 비계량 변수를 관측하기 위한 방법 ( 맛집별점, 선호도 조사)
      • Ordinal Scale
    • 등간척도, 간격척도, 거리척도
      • Interval Scale
      • 비계량적인 변수를 정량적인 방법을 측정하기 위함
      • 동일 간격화로 크기간의 차이 알수 있게 만듬
      • 미세먼지 수치, 당뇨수치
    • 비율 척도
      • Ratio Scale
      • 균등간격에 절대 영점이 있고 비율 계산 가능
      • 가장 전형적인 양적 변수
      • 순서뿐 아니라 간격도 의미가 있음
      • 나이, 키, 금액, 거리 등등

데이터 변환

  1. 데이터 저장 전처리 절차
    • 데이터 필터링, 변환, 정제, 통합,축소 등 데이터 전,후 처리 방식에 따라서 데이터를 처리
  2. 데이터 저장 전,후 처리시 고려사항
    • 데이터 전처리
      • 분류기준 적용 기능
      • 유형 분류, 변환구조 정의 할수 잇는 기능 제공
      • 변환 확인 기능
      • 실패 재시도, 변환데이터 취소
      • 데이터 저장
    • 데이터 후처리
      • 추세에 맞게 자동 추천 기능
      • 집계시 요약 기능
      • 값을 추출하거나 직관적으로 확인할 수 있는 기능
      • 변환후 변환로그를 저장 관리할 수 있는 기능
  3. 데이터 처리방식 선정
    • 데이터 유형과 분석 목적등을 검토하여 기술 선택
    • 의미 파악이 어려운 비정형 데이터는 분ㅅ겅이 가능한 형태로 변환
  • 데이터 변환 기술
    • 평활화 - Smoothing
      • 데이터 잡음제거위해 추세에 벗어나는 값 제거
      • 거친 분포를 매끄럽게 하기 위해 구간화, 군집화
    • 집계 - Aggregation
      • 다양한 차원의 방법으로 데이터를 요약하는 기법
      • 속성이나 객체를 줄이고 스케일을 변경하는 기법 적용
    • 일반화 - Generalization
      • 특정 구간에 분포하는 값으로 스케일 변화
      • 범용적인 데이터에 적합한 모델을 만드는 기법
      • 노이즈가 와도 흔들리지 않아야함
    • 정규화 - Normaslization
      • 데이터를 정해진 구간내에 들도록 하는 기법
      • 최단 근접 분류와 군집화와 같은 거리 측정 등을 위해 특히 유용
      • 최소-최대정규화, z-스코어 정규화, 소수 스케일링 등 통계적 기법 적용
    • 속성 생성 - Attribute/Feature Construction
      • 데이터 통합을 위해 새로운 속성이나 특징 만드는 법
      • 주어진 여러 데이터 분포를 대표할 수 잇는 새로운 속성, 특징을 활용하는 기법
      • 선택한 속성을 하나 이상의 새 속성으로 대체하여 데이터를 변경 처리
  • 정규화 기법
    • 최소-최대 정규화 - Min-Max Normalization
      • 데이터 정규화 하는 가장 일반적 기법
      • 모든 데이터에 대해 각각의 최솟값 0, 최댓값 1로 그리고 다른 값들은 0과 1사이의 값으로 변환
      • 단점은 이상값(범위를 많이 벗어난 값)에 영향을 많이 받음
    • Z-스코어 정규화 - Z-Score Normalization
      • Z-스코어 정규화는 이상값 문제를 피하는 데이터 정규화 전략
      • 데이터들의 평균과 표준편차 구하고 평균 대비 표준편차만큼 데이터가 떨어져 있는지 점수화 하는 기법
    • 소수 스케일링 - Decimal Scaling
      • 특성값의 소수점을 이동하여 데이터 크기를 조정하는 정규화 기법

데이터 비식별화

  • 데이터 보안관리

    • 수집 데이터 보안 관리
      • 개인정보 보안 : 삭제 or 비식별 조치
      • 데이터 연계 보안 : 연계처리시 보안 취약점 제거
      • 빅데이터 보안 : 데이터 흐름에 대한 보안을 구려
    • 빅데이터 수집 보안 관리
      • 데이터 수집 기술 취약성 : 크롤링, API, FTP 등의 오픈소스로 개발된 수집기의 취약점 검토 필요, 안정성 고려
      • 수집 서버 및 네트워크 보안 : DMZ, 방화벽, 접근제어 등 네트워크 보안 고려 필요
      • 개인정보 및 기밀 정보 유출 방지 : 파기, 비식별 조치
    • 빅데이터 저장 보안 관리
      • 데이터 저장소 취약성 : HDFS의 비활성화 데이터가 암호화 대상인지 고려
      • 빅데이터 보안 등급 분류 : 기밀/민감/공개 수준에 따른 보안등급 설정
      • 보안 모니터링
    • 빅데이터 분석 보안 관리
      • 내부사용자 : 실수나 저장매체 이메일 등을 통한 유출 방지
      • 외부 침입자 : 해커
      • 보안로그 : 시스템 권한 통제 접근기록 등의 사용자 로그 관리
  • 데이터 비식별화

    • 데이터 비식별화 적용대상
      • 그자체로 개인을 식별할 수 있는 정보
        • 이름 전화번호, 주민번호, 지문, 등록번호 등
      • 다른 정보와 함께 결합하여 개인을 알아볼 수 있는 정보
        • 성별, 생년, 혈액형 ,키, 세금납부액, 학교명, PC사양, 배우자 , GPS 데이터 등
    • 데이터 비식별화 처리기법 세부기술
      • 가명처리
        • 휴리스틱 익명화 : 정해진 규칙 이용
        • K-익명화 : 같은 속성값을 K개이상 유지 데이터 공개
        • 암호화 : 알고리즘 적용 암호화, key 보안 신경써야함
        • 교환방법
      • 총계처리
        • 기본방식
        • 부분집계 : 일정 부분만 비식별 처리
        • 라운딩 : 집계처리 된 값을 라운딩 적용
        • 데이터 재배열 : 기종 정보값은 유지, 연관데이터 재배열
      • 데이터값 삭제
        • 속성값 삭제
        • 속성값 부분 삭제
        • 데이터 행 삭제
        • 준 식별자 제거를 통한 단순 익명화
      • 범주화
        • 기본방식
        • 랜덤올림 : 임의의 기준으로 올림 내림 하는 방법
        • 범위 방법 : 범위와 구간으로 표현
        • 세분 정보 제한 방법 : 민감항목, 높은시각항목을 상한, 하한, 구간 재코딩 통해 보안
        • 제어 올림 방법 : 랜덤 올림에서 행과 열이 맞지 않는 것을 제어하여 일치시키는 기법
      • 데이터마스킹
        • 임의 잡음 추가 방법
        • 공백과 대체 방법
  • 개인정보 비식별 조치 가이드 라인
    1. 사전검토
    2. 비식별 조치
      • 식별자 조치 기준 : 식별자는 원칙적으로 삭제 조치
      • 속성자 조치 기준 : 데이터 목적과 상관없는 속성자 삭제
      • 비식별 조치 방법
    3. 적정성 평가
      • 기초 자료 작성
      • 평가단 구성
      • 평가 수행
      • 추가 비식별 조치
      • 데이터 활용
    4. 사후관리
      • 비식별 정보 안전조치
      • 재식별 가능성 모니터링

데이터 품질 검증

  • 데이터 품질 특성
    • 데이터 유효성
      • 데이터 정확성 : 정확성 / 사실성 / 적합성 / 필수성 / 연관성
      • 데이터 일관성 : 정합성 / 일치성 / 무결성
    • 데이터 활용성
      • 데이터 유용성 : 충분성 / 유연성 / 사용성 / 추적성
      • 데이터 접근성 : 접근성
      • 데이터 적시성 : 적시성
      • 데이터 보안성 : 보호성 / 책임성 / 안정성
  • 데이터 변환 후 품질 검증 프로세스
    • 수집 데이터 분석
      • 메타 데이터 수집 : 테이블 및 컬럼 목록 명세화, 테이블 관계목록 명세화
      • 수집된 메타데이터 분석 : 불일치 정보 정리
      • 메타데이터를 통한 데이터 속성 분석
    • 메타데이터 통한 데이터 속성 분석 방안
      • 누락값 분석 : NULL값 분포, 공백값, 0 을 통해 누락값 분석
      • 값의 허용범위 분석 : 측량단위, 자료형 크기 등을 통한 허용범위 판단
      • 허용 값 목록 분석 : 집합에 있는지, 발생빈도, 값의 유무, 유효값 검사
      • 문자열 패턴 분석 : 반복되는 대표 모형을 정형화
      • 날짜 유형 분석 : DATETIME 유형과 문자형 날짜 유형 활용 하여 분석
      • 유일 값 분석
      • 구조 분석 : 참조 무결성 분석, 구조결함 위한 관계 분석
    • 정규 표현식
      • \ t, s, d 탭 스페이스 숫자
      • | OR
      • ^ 시작 문자열 : ^abc -> abc로 시작하는 문자열 등장
      • $ 종료 문자열 : xyz$ -> xyz로 종료되는 문자열이 등장
      • () 그룹핑 : a(bc)+ -> bc가 a 뒤에 1번이상 등장
      • [] 괄호에 있는 문자열중 1개와 매칭 : [a-d] -> a, b, c, d중 1개 이상 등장
      • * 0개 이상의 문자열 매칭 : a(bc)* -> a 뒤에 bc가 0번이상 등장
      • + 1개 이상의 문자열 매칭 : a(bc)+ -> a 뒤에 bc가 1번이상 등장
      • {n} n개 이상의 문자열 매칭 : \d{3,5} 숫자가 3번이상 5번 이하 등장
  • 품질 검증 방안
    • 빅데이터 수집 시스템의 요구사항 관련 자료 수집
    • 빅데이터 특성을 고려한 품질 검증 기준 정의
      • 복잡성 기준 정의 : 구조 / 형식 / 자료 / 계층
      • 완전성 기준 정의 : 설명유무 / 개체,변수 / 메타데이터
      • 유용성 기준 정의 : 처리 용이성 / 자료 크기 / 제약사항 /
      • 시간적 요소 및 일관성 기준 정의 : 시간적인 요소 / 일관성 / 타당성 / 정확성

데이터 적재

  • 데이터 적재 아키텍처 수립
    • 아키텍처 정의 : 요구사항을 구현하기 위한 기반기술을 정의하는 과정
    • 요구사항을 반영하여 흐드웨어와 소프트 웨어 아키텍처 정의
  • 빅데이터 적재 아키텍처 요구 정의
    • 장비 요구사항 정의
      • 서버 장비의 규격 : 네임노드, 데이터노드, 분석서버, 수집서버로 나누미
      • 네트워크 장비 : 라우터, 스위치로 구성, 물리적 포트 수를 고려하여 가용 수량 결정
      • 스토리지 장비 : 용도에 따른 SAN(블록단위), NAS(네트워크 통해 접속, 파일단위) 검토
    • 소프트웨어 도입 요구사항
      • 원격환경이 아닌 온프레미스의 경우 오픈소스 도입 고려
    • 성능 요구사항 정의
      • 서버 : 최적 용량 확보, 성능이슈 예방 - CPU, 메모리, 디스크
      • 네트워크 : 트래픽에 대한 예쌍치 - 대역폭, 전송 속도, 처리속도
      • DBMS : 현황데이터 수집, 경향분석 용량계획 반영 - 데이터 모델링, 파라미터 설정
      • 응용 시스템 : 응용프로그램 응용플랫폼 (WEB, WAS, EAI)
    • 인터페이스 요구사항 저으이
  • 빅데이터 적재 하드웨어 아키텍처 정의
    • 서버 노드 아키텍처
      • 네임노드와 데이터 노드로 구분
      • 단일장애지점을 막기위해 보조네임노드를 구성하여 이중화로 할수 있음
    • 데이터 아키텍쳐 정의
      • RDB, NoSQL, 분산파일 시스템등 다양한 아키텍처를 구성
      • 융형과 성격검토
    • 네트워크 아키텍쳐
      • 목표시스템 네트워크 : 전체 네트워크, 대역 구분
      • 개별 장비 네트워크 : 필요에따라 NIC장착
  • 빅데이터 적재 소프트웨어 아키텍쳐 정의
    • 기반 소프트웨어
      • 하둡 도입 검토
      • 인 메모리 데이터베이스 검토 : 스토리지가 메인 메로리
      • 데이터 분석 플랫폼 적용 검토
      • 데이터 시각화 적용 검토
    • 적재 소프트웨어 아키텍처 정의
      • 수집 - Crawler, ETL, 연계/수집 플랫폼
      • 적재 및 저장 - RDB, NoSQL, Object, ETL, 빅데이터 자원관리
      • 분석 - 모델, 플랫폼
      • 활용 - 데이터 시각화, 활용플랫폼, OPEN-API
  • 데이터 적재
    • 특징 : 실시간 처리 여부에 따라 RDBMS, HDFS, NoSQL 저장시스템에 데이터 적재
    • 도구
      • Fluentd : 루비 이용
      • 플럼 : 많은양의 로그데이터 수집 , 이벤트와 에이전트 활용 분산형 로그 수집
      • Scribe : 대용량 실시간 로그 수집기술
      • Logstash : 모든 로그정보 수집해 하나의 저장소에 출력해주는 시스템

데이터 저장

  • 빅데이터 저장기술

    • 대용량, 빠른처리 ,확장성, 신뢰성, 가용성

    • 분산 파일 시스템

      • 컴퓨터 네트워크 통해 공유하는 호스트 컴퓨터의 파일에 접근할 수 있게 하는 시스템
      • GFS, HDFS, Lustre
    • 데이터 베이스 클러스터

      • 관계형 데이터 베이스 관리시스템, 하나의 데이터 베이스를 여러개 서버에 구축
      • Oracle RAC, IBM, MySQL
    • NoSQL

      • 전통적인 RDBMS와 다른 DBMS를 지칭, 수평적으로 확장가능, ACID 요건완화
      • 구글 빅테이블, HBase, 아마존SimpleDB 등
    • 병렬 DBMS

      • 다수의 마이크로프로세스사용, 데이터베이스 처리를 동시에 수행
      • VoltDB , SAP HANA, Verica 등
    • 네트워크 구성 저장 시스템

      • 서로 다른 종류의 데이터 저장장치를 하나의 데이터 서버로 연결
      • SAN, NAS
    • 클라우드 파일 저장 시스템

      • 클라우드 컴퓨팅 환경에서 가상화 기술을 활용한 분산 파일 시스템
      • Amazon S3
  • GFS (Google File System)
    • 대규모 클러스터 서비스 플랫폼의 기반
    • 파일을 64MB의 고정 청크로 나누고 복재본을 서버에 분산하여 저장
    • 구성요소
      • 클라이언트 : 파일 읽기쓰기
      • 마스터 : 이름공간, 매핑정보 등 모든 메타데이터를 메모리상에서 관리
      • 청크서버 : 로컬 디스크에 청크를 저장
    • 구조
      1. 클라이언트가 GFS 마스트에게 파일 요청
      2. 마스터가 저장된 청크의 매핑정보 찾아 해당 청크서버에 전송 요청
      3. 청크서버는 클라이언트에게 전송
  • HDFS (Hadoop Distributed FIle System)
    • 대용량 파일을 분산서버에 저장하고 빠르게 처리
    • 특징
      • 저사양의 다수의 서버 이용하여 비용적 효율
      • 블록 구조의 파일시스템
      • 블록크기는 64MB에서 하둡2.0부터는 128로 증가
    • 구성요소
      • 하나의 네임노드와 하나이상의 보조네임노드 데이터노드로 구성
      • 네임노드 : 마스터 역할 수행
      • 보조네임 노드 : HDFS 모니터링을 보조
      • 데이터 노드 : 데이터 입출력 요청을 처리, 청크와 유사, 블록 3중복제
  • Lustre
    • 클러스터 파일 시스템에서 개발한 객체기반의 클러스터 파일 시스템
    • 구성요소
      • 클라이언트 파일 시스템 : 리눅스 VFS(가상환경)에서 설치할 수 있는 파일시스템, 서버와 통신하며 시스템 인터페이스 제공
      • 메타데이터 서버 : 이름공간과 파일에 대한 메타데이터 관리
      • 객체 저장 서버 : 파일의 데이터 저장, 객체 입출력 요청 처리, 스트라이핑 방식 분산, 저장
  • 데이터 베이스 클러스터 (Database Cluster)
    • 하나의 데이터베이스를 여러 개의 서버상에 분산하여 구축하는 것을 의미
    • 특징
      • 성능과 가용성향상위해 파티셔닝 또는 클러스터링 이용
      • 단일, 다중 서버 파티셔닝으로 구분
    • 구분 : 리소스 공유 관점에서는 공유와 무공유 디스크로 구분
      • 공유 클러스터 : 모든 데이터에 접근 가능하게 하는 방식, SAN과 같은 장비 있어야함, 모든 노드가 데이터 수정가능, 동기화 작업위한 채널 필요
      • 무공유 클러스터 : 자신의 로컬에 저장, 노드 공유 x 확장에 제한 x
    • 종류
      • Oracle RAC : 공유 클러스터, 고가용성, 확장쉬움
      • IBM DB2 ICE : 무공유 클러스터링 지원, 노드장애 발생시 공유디스크 방식으로 가용성
      • SQL Server : 연합데이터베이스 형태, 여러노드로 확장가능, 페일오버를 제공, Active-Stanby 방법 사용 (다중화 장비 두대중 한대만 서비스 실행 )
      • MySQL : 비공유형 메모리기반 데이터베이스의 클러스터링 지원, 관리, 데이터 ,MySQL노드로 구성
  • NoSQL

    • 개념 : RDBMS와 다른 DBMS 지칭, 테이블 스키마 x, join연산 x, 수평적 확장 가능

    • 특징

      • 관계형 x 확장성, 가용성, 높은성능
      • 스키마 없이 자유롭게 추가가능
      • 대부분 오픈소스
    • 특성

      • Basically Available : 언제든 접근 가능
      • Soft-State : 외부에서 전송된 정보를 통해 결정되는 속성
      • Eventually Consistency : 일정 시간 지나면 데이터의 일관성 유지, 일관성 중시
    • 유형

      • Key-Value : Redis, DynamoDB
      • Column Family Data Store : 키 안에 Col, Val 조합으로 여러개의 필드를 갖는 DB
      • Documnet Store : XML, JSON, YAML과같이 구조화된 데이터 타입
      • Graph Store : 시멘틱 웹과 온톨로지 분야에서 활용되는 그래프로 데이터 표현하는 DB
  • CAP 이론

    • 분산 컴퓨팅 환경은 Availability, Consistency, Partition Tolerance 3가지 특징 가지고 있는데 이중 두가지만 마족할 수 있다는 이론 (유효성, 일관성, 분산기능)
    • 유효성 : 모든 클라이언트가 읽기 및 쓰기 가능, 하나의 노드가 다른 노드에 영향 x
    • 일관성 : 모든 사용자에게 같은시간에는 같은데이터를 보여줘야함
    • 분산기능 : 물리적 네트워크 분산환경에서 시스템이 원활하게 돌아가야함
  • NoSQL 제품 종류
    • 구글 빅테이블
      • 구글 클라우드에서 사용
      • 공유 디스크 방식으로 모든 노드가 데이터, 인덱스 파일 공유
      • row는 n개의 Column-Family를 가질 수 있음
      • 타임스탬프 존재 가능
    • HBase
      • HDFS를 기반으로 구현된 컬럼기반의 분산 데이터베이스
      • 비관계형, SQL 지원 x
      • 수평적 확장성
    • 아마존 SimpleDB
      • 아마존의 데이터서비스 플랫폼, 데이터 실시간 처리 지원
    • 마이크로소프트 SSDS
      • SQL Server Data Service는 고가용성 보장
      • 테이블과 유사한 컨테이너, 레코드와 유사한 엔티티로 구성
      • API제공
  • 빅데이터 저장 고려사항

    • 수집 - 분석 - 명세 - 검증 을 통한 요구

    • 데이터 저장의 안정성 신뢰성 확보방안 수립

      • 용량산정, 데이터파악, 시스템 구축 방안 통해서 파악
    • 유형별 저장방식 수립

      • 정형 : RDB
      • 반정형 : RDB, NoSQL
      • 비정형 : NoSQL, HDFS
    • 저장방식 결정

      • 저장기술의 가능성 : 데이터 모델이 무엇인지, 확장성고려,
      • 분석 방식 및 환경 : 상시 또는 배치기반 방식 고려
      • 분석 대상 데이터 유형 : 데이터의 3V 고려
      • 기존 시스템과 연계

반응형

'공부 > 빅데이터 분석기사' 카테고리의 다른 글

빅데이터 분석기사 필기 합격 후기 (비전공자)  (4) 2021.05.07
빅데이터 모델링  (0) 2021.04.19
빅데이터 탐색  (0) 2021.04.19