[빅분기-필기요약] 2. 데이터 분석 계획
데이터 분석의 하향식 접근 방식
- ★분석 과제가 정해짐 > 해결방안 탐색
분석 역량(Who)
|
|||
분석기법 및 시스템(How)
|
구분
|
확보
|
미확보
|
기존 시스템
|
기존 시스템 개선
|
역량 확고
|
|
신규 도입
|
고도화
|
전문업체 소싱
|
데이터 분석의 상향식 접근 방식
- ★문제 정의가 안된 상태
- 디자인 사고 접근법, 비지도 학습, 프로토타이핑 접근법 사용
빅데이터 분석 기획 유형 [OSID] - ("운영체제 아이디")
|
분석 대상(what)
|
||
분석
방법
(how)
|
known
|
unknown
|
|
known
|
Optimization
(최적화)
|
Insight
(통찰)
|
|
unknown
|
Solution
(솔루션)
|
Discovery
(발견)
|
데이터분석 우선순위 평가기준
- 난이도 : 투자비용요소(volume, variety, velocity)
- 시급성 : 비즈니스 효과(value)
- 분석과제의 적용 우선순위가 '시급성'이면 3-4-2, '난이도'라면 3-1-2 순으로 의사결정 수행
현재 시급성 미래
|
||
어려움
난이도
쉬움
|
1
|
2
|
3
|
4
|
빅데이터 분석 방법론 계층 [단태스]
- 단계 : 완성된 단계별 산출물 생성, 기준선/버전관리
- 태스크 : 단계를 구성하는 단위 활동
- 스텝 : input/tool/output 으로 구성된 단위 프로세스
빅데이터 분석 방법론의 분석절차
1. 분석 기획 : 비즈니스 이해와 범위 설정, 프로젝트 정의와 계획 수립, 프로젝트 위험 계획 수립
2. 데이터 준비 : 필요 데이터 정의, 데이터 스토어 설계, 데이터 수집 및 정합성 점검
3. 데이터 분석 : 분석용 데이터 준비, 텍스트 분석, 탐색적 분석, 모델링, 모델 평가 및 검증
4. 시스템 구현 : 설계 및 구현, 시스템 테스트 및 운영
5. 평가 및 전개 : 모델 발전 계획 수립, 프로젝트 평가 및 보고
KDD 분석 방법론 (5개 절차)
- 통계적 패턴/지식 찾기 위해 정리한 방법론
1. 데이터 셋 선택 : 도메인 이해, 타겟 데이터 구성
2. 데이터 전처리 : 노이즈 이상치, 결측값 제거
3. 데이터 변환 : 변수 찾고 차원축소
4. 데이터 마이닝 : 알고리즘 선택, 패턴 찾기, 데이터 분류, 예측 작업
5. 결과 평가 : 결과의 해석/평가, 발견된 지식 활용
CRISP-DM 분석 방법론 (4개 구성요소, 6개 절차)
- 데이터 분석 목적의 데이터 마이닝 방법론
- 구성 [단일세프] : 단계 > 일반화 태스크 > 세분화 태스크 > 프로세스 실행
1. 업무 이해 : 목적/상황 파악, 데이터 마이닝 목표 설정, 프로젝트 계획 수립
2. 데이터 이해 : 초기 데이터 수집/기술 분석/탐색/품질 확인
3. 데이터 준비 : 분석용 데이터셋 선택, 데이터 정제/통합, 학습/검증 데이터 분리
4. 모델링 : 모델링 기법 선택, 테스트 계획 설계/수행/평가
5. 평가 : 분석/모델링 결과 평가
6. 전개 : 모니터링/유지보수 계획 수립, 산출물 작성성
SEMMA 분석 방법론 (5개)
- 샘플링 > 탐색 > 수정 > 모델링 > 검증
분석 기획 시 고려사항
- 가용 데이터, 유즈케이스, 사전 계획 수립