본문 바로가기

반응형

공부/빅데이터와 머신러닝 소프트웨어 (K-MOOC)

(4)
4주차. 빅데이터 스트림 분석 빅데이터 스트림 분석 4-1. 스트림 처리 기존의 배치 분석은 데이터가 고정 스트림 데이터는 계속해서 데이터가 들어옴 예를 들어 이벤트 타임과 실제 들어오는 시각이 다를 수 있음 이벤트 타임과 프로세싱 타임이 별도의 차이가 발생함 스트림 데이터 특성 Unbounded data - 꾸준히 끊임없이 들어오는 데이터 이벤트 타임과 프로세싱 타임이 다름 late data 처리 중요, 순서가 바뀌어서 들어올 가능성도 있음 Window operation - 특정 시간 인터벌 안에 있는 인터벌을 처리하기 위해 사용하는 것 What How Continuous 질의 시스템 - Strom, Heron, Flink 빠르게 데이터 처리 장애복구가 훨씬 어려움 Micro-batch system 작은단위의 배치를 계속 수행하는 ..
3주차. 빅데이터 배치 분석 및 대화형 질의 빅데이터 배치 분석 및 대화형 질의 3-1. 배치분석 Batch 분석 많은 데이터를 큰 단위로 분석하는 분석 방법 ex) ETL RDD operation 통해서 표현 가능 RDD operation 통해서 표현하기 RDD 생성 병렬화된 컬렉션 생성 - 기존언어를 병렬 collection, Paralleize하면 RDD 형태로 변환 실제로 아주 큰 데이터를 분산파일 시스템에 저장할때는 다음방법 데이터 파일들 위치를 textFile이라는 함수에 주면 데이터를 읽어서 RDD 형성 RDD 변환 Map 변환 : 각각의 원소에 함수를 적용해서 결과 만들어내서 RDD 생성 flatMap에 넘겨진 함수 적용 filter : RDD서 포함된 element중 조건을 만족하는 것만 넘겨줌 Map & flattenMap Map..
2주차. 빅데이터 처리 시스템 개요 및 예시 빅데이터 처리 시스템 개요 및 예시 2-1. 데이터 처리 개요 데이터 분석시스템 프로그래밍 모델 Compiler Interpreter 에서 프로그램 변환 수행하능한 계획으로 바꿈 계획받아서 수행하는 부분 Runtime Runtime은 많은 데이터를 분산처리, 그르므로 얼마나 잘하는지가 상당히 중요 program - (compiler) - logical plan - physical plan - runtime 구조화된 데이터라면 SQL사용 중간 레벨에서는 RDD같이 변환을 가지고 파이프라인 작성가능 더 아래 레벨에서는 그래프 형태로 표현 데이터 플로우 그래프 DAG Vertax - operator, Edge -data dependency 병렬화 쉬움, 최적화 쉬움, 다양한 환경 deploy 쉬움 여러 레벨의..
1주차. 빅데이터 분석 소프트웨어 개요 빅데이터 분석 소프트웨어 개요 1.1 데이터 사이언스 소개 및 빅데이터 특성 데이터 사이언스 정의 및 응용 정의 데이터를 알고리즘을 이용 툴을 통해 insight를 얻어내는 것 응용 Business Report 시차에 따른 분석 트윗과 같은 곳에서 게시물을 시간대 별로 분석 10초마다 자동차가 얼마나 이동하는지 추천시스템 넷플릭스, 아마존 뉴스사이트의 관심뉴스 Sentiment Analysis 온라인 글을 통해서 어떤 감정을 가지고있는지 그래프 분석 vertex를 edge로 연결하는 구조 웹그래프, 소셜네트워크 친구관계 그래프 이미지, 오디오 비디오 텍스트가 아닌 아닌 다른 형식들 음악의 정보를 자동으로 찾아주는 것 사진분석 특성 - 3V Volume 엄청나게 많은 양 2020년까지 만들어낼 데이터가 4..

반응형