빅데이터분석기사

[빅분기-필기요약] 7. 빅데이터 모델링 > 분석 모형 설계

양바른 2023. 4. 8. 22:29

1. 분석 절차 수립

① 분석 모형 선정

- 탐색적 데이터 분석(EDA) : 현상에서 패턴 발견

- 통계적 추론 : 현상에서 인과 결론 도출

- 기계학습(머신러닝) : 현상 예측

- 통계기반 분석 모형 선정

. 기술 통계

. 상관 분석

. 회귀 분석 : 유형(단순, 다중, 다항, 로지스틱, 비선형 회귀)

. 분산 분석(ANOVA) : 집단 내 분산의 비교로 얻은 분포로 가설검정, 유형(일원 분산 분석, 이원 분산 분석, 다변량 분산 분석)

. 주성분 분석

. 판별 분석

- 데이터 마이닝 기반 분석 모형 선정

. 분류(classification) : 통계적 기법(로지스틱 회귀 분석, 판별분석), 트리기반(CART 알고리즘), 최적화(SVM), 기계학습(기대 출력값과 실제 출력값 간의 비교로 계산된 오차를 시냅스 역할을 하는 노드에 가중치를 조정하여 모델에 반영, 입력 계층으로 역방향 반영하는 역전파 알고리즘)

. 예측 모델(Prediction) : 회귀 분석, 의사결정나무, 시계열분석, 인공신경망

. 군집화 모델(clustering)

.. 계층적 방법 : 군집수 미정, 응집 분석법/분할 분석법

.. 비계층적 방법 : 군집수 미리 정함, K-means

. 연관규칙 모델(association rule) : 장바구니 분석

- 머신러닝 기반 분석모형 선정

. 지도 학습 [로인의 서랜감]

.. 지스틱 회귀분석 : 반응변수가 범주형

.. 공신경망

.. 사결정나무

.. 포트 머신 벡터

.. 덤 포레스트

.. 성 분석

. 비지도 학습 [군자연차딥] ; 군자는 회사는 연차를 내고 하게 쉬려고 한다.

.. 집화

.. 기 조직화 지도(SOM)

.. 관관계 분석(장바구니 분석)

.. 원축소 기법

.. 러닝

- 데이터 유형 따른 분석방법

. 연속형 x 연속형 : 산점도, 상관성 분석

. 범주형 x 범주형 : 누적 막대 그래프, 카이제곱 분석(두 변수가 독립적인지 여부)

. 범주형 x 연속형 : 누적 막대 그래프, 2개 범주는 T-test, 3개 범주는 ANOVA

. 연속형 독립변수 - 연속형 종속변수 : 회귀 분석, ANN, KNN

. 연속형 독립변수 - 범주형 종속변수 : 로지스틱 회귀 분석, 판별 분석, KNN

. 범주형 독립변수 - 연속형 종속변수 : 회귀 분석, ANN, 의사결정나무

. 범주형 독립변수 - 범주형 종속변수 : ANN, 의사결정나무, 로지스틱 회귀분석

. 연속형 변수 : SVM, 군집 분석, 상관 분석

. 범주형 변수 : 연관성 분석, 판별 분석, 상관 분석

② 분석 모형 정의

③ 분석 모형 구축 절차

2. 분석 환경 구축

① 분석 도구 선정

② 데이터 분할