본문 바로가기

공부/빅데이터와 머신러닝 소프트웨어 (K-MOOC)

1주차. 빅데이터 분석 소프트웨어 개요

반응형

빅데이터 분석 소프트웨어 개요

1.1 데이터 사이언스 소개 및 빅데이터 특성

데이터 사이언스 정의 및 응용

  • 정의
    • 데이터를 알고리즘을 이용 툴을 통해 insight를 얻어내는 것
  • 응용
    • Business Report
    • 시차에 따른 분석
      • 트윗과 같은 곳에서 게시물을 시간대 별로 분석
      • 10초마다 자동차가 얼마나 이동하는지
    • 추천시스템
      • 넷플릭스, 아마존
      • 뉴스사이트의 관심뉴스
    • Sentiment Analysis
      • 온라인 글을 통해서 어떤 감정을 가지고있는지
    • 그래프 분석
      • vertex를 edge로 연결하는 구조
      • 웹그래프, 소셜네트워크 친구관계 그래프
    • 이미지, 오디오 비디오
      • 텍스트가 아닌 아닌 다른 형식들
      • 음악의 정보를 자동으로 찾아주는 것
      • 사진분석
  • 특성 - 3V
    • Volume
      • 엄청나게 많은 양 2020년까지 만들어낼 데이터가 44ZB라고 함
    • Velocity
      • 속도 매우 빠름
    • Variety
      • 다양한 데이터 형태

 

1.2 빅데이터 소프트웨어 개요

빅데이터 시스템

  • 빅데이터 시스템
    • 데이터가 많지 않은경우에는 R, Matlab, Python 패키지로 하나의 컴퓨터에서 작은데이터를 분석하는데 유용하게 이용할 수 있음
    • 많은 데이터를 빠르게 처리하기 위해서는 하나의 컴퓨터가 아닌 많은 컴퓨터를 동시에 잘 이용할 수 있어야 함
    • 머신간에 데이터 운송이 발생 할 수 있음 그 과정중 access에서 느릴 수 있음
    • Challange 중에 장애가 발생할 수 있음
  • 빅데이터 시스템 구성
    • 하드웨어
    • 분산 스토리지 시스템
    • 분산 프로세싱 시스템
    • 분석애플리 케이션
  • 빅데이터 Workflow
    • 서비스 데이터 - Data ingestion - Data analysis - 서비스 데이터
    • 서비스 데이터 - Data ingestion - Data analysis 모델에서 Machine learing 을 이용
  • Data Analysis Categories
    • Batch processing - 데이터를 큰 단위로 분석함
    • Interactive query - 데이터를 상호작용하면서 질의를 통해 분석
    • Stream processing - 데이터가 들어올 때마다 실시간으로 바로 분석해서 결과를 냄
    • Graph processing - 그래프 데이터에 특화
    • Machine learning / deep learning - 예측 모델을 만들어냄

빅데이터 및 머신러닝 대표 시스템 소개

  • 빅데이터 시스템
    • GFS, MapReduce - 초기에 구ㅡㄹ내부에서 사용
    • GFS, Map Reduce 구현한 Hadoop 탄생
    • 인메모리 방식의 아파치 스파크
    • TensorFlow , PyTorch, Caffe2
    • ML.NET
  • Apach Haddop
    • Yarn, HDFS, Haddop MR 로 구성
    • HDFS : 구글의 GFS의 오픈소스 구현, 애플리케이션 최적화, 데이터 복제시 데이터 소실방지하는 장애 복구기능
    • Hadoop MR : 구글의 맵리듀스 구현, 많은 데이터를 처리할 수 있는 scalability, Job 수행중 장애가 발생한 task를 다시시작함으로써 복구
  • Spark
    • 하둡에서 제한된 형태로 분석프로그램 표현 but 일반적인 그래프 형태로 분석프로그램 표현
    • 메모리를 사용해서 분석을 빠르게함
    • 아주 쉬운 프로그래밍 인터페이스 제공
    • 현재에서 가장 많이 사용함
  • TensorFlow
    • 구글에서 만든 오픈소스 머신러닝 프레임워크
    • 머신러닝에 다 적용할 수 있지만 딥러닝에 적용 할 수 있는 인기 많은 프레임 워크

분산스토리지 시스템

  • 분산스토리지
    • 데이터를 분산된 여러머신에 쓰고 읽을 수 있는 시스템
  • HDFS
    • 하둡 분산 파일시스템은 파일 시스템 인터페이스 제공
    • 큰 데이터를 한번에 쭉 읽는 패턴에 최적화
    • append 방식 최적화
    • 데이터 자체가 커서 큰 유닛으로 사용함 128 ,256mb
    • 안정적으로 보존하기 위해 장애복구 지원
    • Master-worker architecture구조 취함
      • 가운데 Master 존재
      • Worker들에게 일을 주는 형태의 Architecture
    • Name 노드 - 오퍼레이션에 관련된 중요한 메타데이터 관리
    • Data Node 실제데이터, 데이터 블록을 찾아서 돌려주거나 데이터 노드에 쓴다고 했을때 쓰는 역할
    • 컨트롤과 데이터 플로우가 구분되어있음 sclabel한 아키텍쳐

Quiz

Quiz_1

빅데이터 특성을 나타내는V에 해당하는 것을 전부 고르시오.

 

가. Velocity

나. Viscosity

다. Volume

라. Variety

 

가+나+다

가+나+라

가+다+라 정답

나+다+라

 

Quiz_2

데이터 사이언스 응용에서 글의 내용이 긍정적인지, 부정적인지, 중립적인지를 판단하는 기법은?

 

Graph analysis

Sentiment analysis 정답

Business report

Recommendation

 

Quiz_3

빅데이터 분석 시스템의 challenge가 아닌 것은?

 

데이터를 여러 machine에 잘 나누어야 한다.

데이터가 망을 타고 옮겨지는 부분을 최적화해야 한다.

수행중에 장애가 발생하더라도 장애를 해결하고 수행을 완료해야 한다.

한 machine에서 모든 데이터를 처리할 수 있도록 한다. 정답

 

Quiz_4

빅데이터 시스템에서 해 주는 것인 것은?

 

A. 자동으로 데이터를 나누어 여러 머신에 분배 저장한다.

B. 분석하려는 것을 작은 단위의 태스크로 나누어 분산 수행한다.

C. 분석 수행 중에 장애 발생시 자동으로 복구한다.

 

A, B

A, C

B, C

A, B, C 정답

 

Quiz_5

빅데이터 분산 파일 시스템의 특성이 아닌 것은?

 

주로 매스터-워커 구조로 구성된다.

매스터가 메타 데이터와 데이터를 전달하는 역할을 한다. 정답

데이터 단위 블록 사이즈가 크다 (예: 128MB 이상).

큰 데이터를 스트리밍 해서 읽고 큰 데이터를 순차적으로 추가하여 쓰는 워크로드가 주이다.

반응형