빅데이터분석기사

[빅분기-필기요약] 2. 데이터 분석 계획

양바른 2023. 4. 8. 22:23

데이터 분석의 하향식 접근 방식

- ★분석 과제가 정해짐 > 해결방안 탐색

분석 역량(Who)
분석기법 및 시스템(How)
구분
확보
미확보
기존 시스템
기존 시스템 개선
역량 확고
신규 도입
고도화
전문업체 소싱

데이터 분석의 상향식 접근 방식

- ★문제 정의가 안된 상태

- 디자인 사고 접근법, 비지도 학습, 프로토타이핑 접근법 사용

빅데이터 분석 기획 유형 [OSID] - ("운영체제 아이디")

분석 대상(what)
분석
방법
(how)
 
known
unknown
known
Optimization
(최적화)
Insight
(통찰)
unknown
Solution
(솔루션)
Discovery
(발견)

데이터분석 우선순위 평가기준

- 난이도 : 투자비용요소(volume, variety, velocity)

- 시급성 : 비즈니스 효과(value)

- 분석과제의 적용 우선순위가 '시급성'이면 3-4-2, '난이도'라면 3-1-2 순으로 의사결정 수행

 
현재 시급성 미래
어려움
난이도
쉬움
1
2
3
4

빅데이터 분석 방법론 계층 [단태스]

- 단계 : 완성된 단계별 산출물 생성, 기준선/버전관리

- 태스크 : 단계를 구성하는 단위 활동

- 스텝 : input/tool/output 으로 구성된 단위 프로세스

빅데이터 분석 방법론의 분석절차

1. 분석 기획 : 비즈니스 이해와 범위 설정, 프로젝트 정의와 계획 수립, 프로젝트 위험 계획 수립

2. 데이터 준비 : 필요 데이터 정의, 데이터 스토어 설계, 데이터 수집 및 정합성 점검

3. 데이터 분석 : 분석용 데이터 준비, 텍스트 분석, 탐색적 분석, 모델링, 모델 평가 및 검증

4. 시스템 구현 : 설계 및 구현, 시스템 테스트 및 운영

5. 평가 및 전개 : 모델 발전 계획 수립, 프로젝트 평가 및 보고

KDD 분석 방법론 (5개 절차)

- 통계적 패턴/지식 찾기 위해 정리한 방법론

1. 데이터 셋 선택 : 도메인 이해, 타겟 데이터 구성

2. 데이터 전처리 : 노이즈 이상치, 결측값 제거

3. 데이터 변환 : 변수 찾고 차원축소

4. 데이터 마이닝 : 알고리즘 선택, 패턴 찾기, 데이터 분류, 예측 작업

5. 결과 평가 : 결과의 해석/평가, 발견된 지식 활용

CRISP-DM 분석 방법론 (4개 구성요소, 6개 절차)

- 데이터 분석 목적의 데이터 마이닝 방법론

- 구성 [단일세프] : 계 > 반화 태스크 > 분화 태스크 > 로세스 실행

1. 업무 이해 : 목적/상황 파악, 데이터 마이닝 목표 설정, 프로젝트 계획 수립

2. 데이터 이해 : 초기 데이터 수집/기술 분석/탐색/품질 확인

3. 데이터 준비 : 분석용 데이터셋 선택, 데이터 정제/통합, 학습/검증 데이터 분리

4. 모델링 : 모델링 기법 선택, 테스트 계획 설계/수행/평가

5. 평가 : 분석/모델링 결과 평가

6. 전개 : 모니터링/유지보수 계획 수립, 산출물 작성성

SEMMA 분석 방법론 (5개)

- 샘플링 > 탐색 > 수정 > 모델링 > 검증

분석 기획 시 고려사항

- 가용 데이터, 유즈케이스, 사전 계획 수립