반응형
빅데이터 분석 소프트웨어 개요
1.1 데이터 사이언스 소개 및 빅데이터 특성
데이터 사이언스 정의 및 응용
- 정의
- 데이터를 알고리즘을 이용 툴을 통해 insight를 얻어내는 것
- 응용
- Business Report
- 시차에 따른 분석
- 트윗과 같은 곳에서 게시물을 시간대 별로 분석
- 10초마다 자동차가 얼마나 이동하는지
- 추천시스템
- 넷플릭스, 아마존
- 뉴스사이트의 관심뉴스
- Sentiment Analysis
- 온라인 글을 통해서 어떤 감정을 가지고있는지
- 그래프 분석
- vertex를 edge로 연결하는 구조
- 웹그래프, 소셜네트워크 친구관계 그래프
- 이미지, 오디오 비디오
- 텍스트가 아닌 아닌 다른 형식들
- 음악의 정보를 자동으로 찾아주는 것
- 사진분석
- 특성 - 3V
- Volume
- 엄청나게 많은 양 2020년까지 만들어낼 데이터가 44ZB라고 함
- Velocity
- 속도 매우 빠름
- Variety
- 다양한 데이터 형태
- Volume
1.2 빅데이터 소프트웨어 개요
빅데이터 시스템
- 빅데이터 시스템
- 데이터가 많지 않은경우에는 R, Matlab, Python 패키지로 하나의 컴퓨터에서 작은데이터를 분석하는데 유용하게 이용할 수 있음
- 많은 데이터를 빠르게 처리하기 위해서는 하나의 컴퓨터가 아닌 많은 컴퓨터를 동시에 잘 이용할 수 있어야 함
- 머신간에 데이터 운송이 발생 할 수 있음 그 과정중 access에서 느릴 수 있음
- Challange 중에 장애가 발생할 수 있음
- 빅데이터 시스템 구성
- 하드웨어
- 분산 스토리지 시스템
- 분산 프로세싱 시스템
- 분석애플리 케이션
- 빅데이터 Workflow
- 서비스 데이터 - Data ingestion - Data analysis - 서비스 데이터
- 서비스 데이터 - Data ingestion - Data analysis 모델에서 Machine learing 을 이용
- Data Analysis Categories
- Batch processing - 데이터를 큰 단위로 분석함
- Interactive query - 데이터를 상호작용하면서 질의를 통해 분석
- Stream processing - 데이터가 들어올 때마다 실시간으로 바로 분석해서 결과를 냄
- Graph processing - 그래프 데이터에 특화
- Machine learning / deep learning - 예측 모델을 만들어냄
빅데이터 및 머신러닝 대표 시스템 소개
- 빅데이터 시스템
- GFS, MapReduce - 초기에 구ㅡㄹ내부에서 사용
- GFS, Map Reduce 구현한 Hadoop 탄생
- 인메모리 방식의 아파치 스파크
- TensorFlow , PyTorch, Caffe2
- ML.NET
- Apach Haddop
- Yarn, HDFS, Haddop MR 로 구성
- HDFS : 구글의 GFS의 오픈소스 구현, 애플리케이션 최적화, 데이터 복제시 데이터 소실방지하는 장애 복구기능
- Hadoop MR : 구글의 맵리듀스 구현, 많은 데이터를 처리할 수 있는 scalability, Job 수행중 장애가 발생한 task를 다시시작함으로써 복구
- Spark
- 하둡에서 제한된 형태로 분석프로그램 표현 but 일반적인 그래프 형태로 분석프로그램 표현
- 메모리를 사용해서 분석을 빠르게함
- 아주 쉬운 프로그래밍 인터페이스 제공
- 현재에서 가장 많이 사용함
- TensorFlow
- 구글에서 만든 오픈소스 머신러닝 프레임워크
- 머신러닝에 다 적용할 수 있지만 딥러닝에 적용 할 수 있는 인기 많은 프레임 워크
분산스토리지 시스템
- 분산스토리지
- 데이터를 분산된 여러머신에 쓰고 읽을 수 있는 시스템
- HDFS
- 하둡 분산 파일시스템은 파일 시스템 인터페이스 제공
- 큰 데이터를 한번에 쭉 읽는 패턴에 최적화
- append 방식 최적화
- 데이터 자체가 커서 큰 유닛으로 사용함 128 ,256mb
- 안정적으로 보존하기 위해 장애복구 지원
- Master-worker architecture구조 취함
- 가운데 Master 존재
- Worker들에게 일을 주는 형태의 Architecture
- Name 노드 - 오퍼레이션에 관련된 중요한 메타데이터 관리
- Data Node 실제데이터, 데이터 블록을 찾아서 돌려주거나 데이터 노드에 쓴다고 했을때 쓰는 역할
- 컨트롤과 데이터 플로우가 구분되어있음 sclabel한 아키텍쳐
Quiz
Quiz_1
빅데이터 특성을 나타내는V에 해당하는 것을 전부 고르시오.
가. Velocity
나. Viscosity
다. Volume
라. Variety
가+나+다
가+나+라
가+다+라 정답
나+다+라
Quiz_2
데이터 사이언스 응용에서 글의 내용이 긍정적인지, 부정적인지, 중립적인지를 판단하는 기법은?
Graph analysis
Sentiment analysis 정답
Business report
Recommendation
Quiz_3
빅데이터 분석 시스템의 challenge가 아닌 것은?
데이터를 여러 machine에 잘 나누어야 한다.
데이터가 망을 타고 옮겨지는 부분을 최적화해야 한다.
수행중에 장애가 발생하더라도 장애를 해결하고 수행을 완료해야 한다.
한 machine에서 모든 데이터를 처리할 수 있도록 한다. 정답
Quiz_4
빅데이터 시스템에서 해 주는 것인 것은?
A. 자동으로 데이터를 나누어 여러 머신에 분배 저장한다.
B. 분석하려는 것을 작은 단위의 태스크로 나누어 분산 수행한다.
C. 분석 수행 중에 장애 발생시 자동으로 복구한다.
A, B
A, C
B, C
A, B, C 정답
Quiz_5
빅데이터 분산 파일 시스템의 특성이 아닌 것은?
주로 매스터-워커 구조로 구성된다.
매스터가 메타 데이터와 데이터를 전달하는 역할을 한다. 정답
데이터 단위 블록 사이즈가 크다 (예: 128MB 이상).
큰 데이터를 스트리밍 해서 읽고 큰 데이터를 순차적으로 추가하여 쓰는 워크로드가 주이다.
반응형
'공부 > 빅데이터와 머신러닝 소프트웨어 (K-MOOC)' 카테고리의 다른 글
4주차. 빅데이터 스트림 분석 (0) | 2021.04.24 |
---|---|
3주차. 빅데이터 배치 분석 및 대화형 질의 (0) | 2021.04.19 |
2주차. 빅데이터 처리 시스템 개요 및 예시 (0) | 2021.04.19 |