본문 바로가기

반응형

공부

(31)
빅데이터 모델링 빅데이터 모델링 1. 분석 모형 설계 분석 모형 선정 분석 모형 선정 목적에 적합하고, 변수들을 고려하여 분석 모형을 선정하는 과정 현상에서 패턴발견 - EDA, 추론 및 예측 - 머신러닝 통계기반 분석 모형 선정 기술 통계 확률통계적으로 요약하는 기초적인 통계 분석 초기단계에서 데이터 분포의 특징 파악 상관분석 두개 이상의 변수 간에 존재하는 상호 연관성 정도 측정 변수의 개수및 데이터 속성에 따라서 세부 모델들로 분류 단순상관, 다중상관, 변수간의 상관분석 회귀분석 하나 이상의 독립변수들이 종속변수에 미치는 영향을 추정 단순 회귀 : 독립변수 1개, 종속변수와 직선 관계 다중 회귀 : 독립변수가 K개, 종속변수와의 관계가 선형 다항 회귀 : 독립변수와 종속변수와의 관계가 1차 함수 이상인 관계 곡선회..
빅데이터 탐색 빅데이터 탐색 1. 데이터 전처리 데이터 정제 결측값을 채우거나 이상값을 제거하는 과정을 통해 데이터의 신뢰도를 높이는 작업 데이터 정제 절차 오류 원인 분석 결측값 : 누락, 중심 경향값넣기로 처리 가능 노이즈 : 일정범위 중간값 대체 이상값 : 하한,상한값 대체 대상 선정 정제방법 결정 정확한 데이터로 수정하거나 삭제하는 과정 삭제, 대체, 예측값 삽입 등으로 시행 데이터 정제 기술 데이터 일관성유지를 위해 수행하는 정제 기법 변환 : 다양한 형태로 표현된 값을 형태 변환 - 코드변환, 형식변환(YYMMDD -> YY.MM.DD) Parsing : 정제규칙 적용위해 최소단위로 분할 - 주민등록번호를 생년월일, 성별로 분할 보강 : 추가 정보를 반영 데이터 정제 기술 ETL : 추출, 가공 하여 데이터..
빅데이터 분석 기획 빅데이터 분석기획 1. 빅데이터의 이해 빅데이터 특징 빅데이터 개념 빅데이터는 정형+비정형(반정형) DIKW 피라미드로 표현가능 data, information,Knowledge, Wisdom 데이터는 단순한 데이터 정보는 의미가 도출된 데이터 지식은 일반화 시킨 결과물 지혜는 창의적 아이디어 특징 전통의 3V Volume 규모 Variety 다양성 Velocity 속도 5V, 7V Veracity , Value 추가 (신뢰성, 가치 ) Validity, Volatility 추가 ( 정확성, 휘발성) 빅데이터의 유형 정형 - 스키마 구조 DBMS에 저장될 수 있는 구조 Oracle, MS-SQL 반정형 - 데이터 구조에 대한 메타정보 포함 (XML, HTML, JSON) 비정형 - 데이터객체로 구분 -그..
3주차. 빅데이터 배치 분석 및 대화형 질의 빅데이터 배치 분석 및 대화형 질의 3-1. 배치분석 Batch 분석 많은 데이터를 큰 단위로 분석하는 분석 방법 ex) ETL RDD operation 통해서 표현 가능 RDD operation 통해서 표현하기 RDD 생성 병렬화된 컬렉션 생성 - 기존언어를 병렬 collection, Paralleize하면 RDD 형태로 변환 실제로 아주 큰 데이터를 분산파일 시스템에 저장할때는 다음방법 데이터 파일들 위치를 textFile이라는 함수에 주면 데이터를 읽어서 RDD 형성 RDD 변환 Map 변환 : 각각의 원소에 함수를 적용해서 결과 만들어내서 RDD 생성 flatMap에 넘겨진 함수 적용 filter : RDD서 포함된 element중 조건을 만족하는 것만 넘겨줌 Map & flattenMap Map..
2주차. 빅데이터 처리 시스템 개요 및 예시 빅데이터 처리 시스템 개요 및 예시 2-1. 데이터 처리 개요 데이터 분석시스템 프로그래밍 모델 Compiler Interpreter 에서 프로그램 변환 수행하능한 계획으로 바꿈 계획받아서 수행하는 부분 Runtime Runtime은 많은 데이터를 분산처리, 그르므로 얼마나 잘하는지가 상당히 중요 program - (compiler) - logical plan - physical plan - runtime 구조화된 데이터라면 SQL사용 중간 레벨에서는 RDD같이 변환을 가지고 파이프라인 작성가능 더 아래 레벨에서는 그래프 형태로 표현 데이터 플로우 그래프 DAG Vertax - operator, Edge -data dependency 병렬화 쉬움, 최적화 쉬움, 다양한 환경 deploy 쉬움 여러 레벨의..
1주차. 빅데이터 분석 소프트웨어 개요 빅데이터 분석 소프트웨어 개요 1.1 데이터 사이언스 소개 및 빅데이터 특성 데이터 사이언스 정의 및 응용 정의 데이터를 알고리즘을 이용 툴을 통해 insight를 얻어내는 것 응용 Business Report 시차에 따른 분석 트윗과 같은 곳에서 게시물을 시간대 별로 분석 10초마다 자동차가 얼마나 이동하는지 추천시스템 넷플릭스, 아마존 뉴스사이트의 관심뉴스 Sentiment Analysis 온라인 글을 통해서 어떤 감정을 가지고있는지 그래프 분석 vertex를 edge로 연결하는 구조 웹그래프, 소셜네트워크 친구관계 그래프 이미지, 오디오 비디오 텍스트가 아닌 아닌 다른 형식들 음악의 정보를 자동으로 찾아주는 것 사진분석 특성 - 3V Volume 엄청나게 많은 양 2020년까지 만들어낼 데이터가 4..
1주차 메모 1주차 1강 팩토리의 이해와 팩토리를 스마트하게 만들 수 있는 것들 4차 산업혁명 - industry 4.0 생산과정을 ict와 융합 고객 맞춤형 특징 초연결성 : 사람과 사물 iot 연결 초지능화 : 빅데이터, 인공지능통한 지능화 초융합 : 기술, 산업, 사물, 인간간의 경계 사라짐 스마트 팩토리 : 공장이 판단 통제가 가능 스마트 팩토리 특징 능동성 지능성 신뢰성 민첩성 연계성 2강 스마트팩토리 이해 위해서는 공장과 생산관리 공장조직은 라인과 스태프로 구분 라인조직: 공장장 팀장 작업자 상하관계 명령계통 단순, 규율유지, 조정용이 단점 : 상급자의 부담이 큼, 수평조직간 협조 어려움 기능조직: 공장장, 전문팀장, 작업자 고도의 전문능력 복수의팀장, 팀장사이 마찰 사업부제 조직: 제품별로 독립된 사업부..

반응형