. ROC 커브 : x축은 FP, y축은 TP
. AUC(Area Under Curve) : ROC 커브의 아래 면적, 항상 0.5~1값을 가짐. 1에 가까울수록 좋음
. 이익 도표(Gain Chart) : 목표 범주에 속하는 개체들이 임의의 등급에 얼마나 분포하는지.
② 분석 모형 진단
- 데이터 분석 모형의 오류 : 일반화 오류 → 과대적합, 학습 오류 → 과소적합
- 데이터 분석 모형의 검증 : 홀드 아웃 교차 검증(안겹치게 트레이닝 셋, 테스트 셋으로 분리),
다중 교차 검증(무작위 동일크기로 k개의 부분집합으로 분리.
1개는 테스트 셋, k-1개는 트레이닝 셋.)
- 데이터 분석 모형의 시각화 : [구시표] 정보 구조화 (데이터 수집 > 분류 > 배열 > 재배열) → 정보 시각화 ([시분관비공] 시간, 분포, 관계, 비교, 공간) → 정보 시각표현 (그래픽 7요소, 시각정보 디자인 7원칙)
- 데이터 모형 진단 : 회귀모형 진단 ([등선정독] 등분산성, 선형성, 정상성/정규성, 독립성)
. 등분산성 : 잔차의 산점도로 파악(전체적으로 고르게 분포되었는지)
. 선형성 : 잔차의 산점도로 파악
. 정상성 : [샤콜Q] 샤피로-윌크 검정, 콜모고로프-스미르노프 적합성 검정. Q-Q plot로 시각화 검정함.
. 독립성 : 잔차의 산점도로 파악(일정한 경향성없이 분포여부), 더빗-왓슨 검정(귀무가설 - 자기 상관관계가 없다. 독립적이다..)
③ 교차 검증
- 홀드 아웃 교차 검증 : 비복원 추출로 학습 데이터와 평가 데이터를 나눔, 계산량이 적음, 데이터 손실 발생
- 랜덤 서브 샘플링 : 표본을 무작위로 추출, 홀드 아웃을 반복하여 데이터 손실 방지
- K-Fold Cross Validation : 1개 테스트 셋, K-1개는 트레이닝 셋. > K값이 증가하면 수행시간/계산 많아짐
- Leave-One-Out Cross Validation(LOOCV) : 1개 샘플만 테스트 셋, N-1개 트레이닝 셋으로 N번 반복
- Leave-p-out Cross Validation(LpOCV) : p개 샘플을 테스트에 사용
- RTL(Repeated Learning Testing) : 랜덤한 비복원 추출
- 부트스트랩 : 단순 랜덤 복원추출, 데이터의 복원 추출, 샘플에 한번도 선택되지 않는 원 데이터는 약 36.8%(테스트 셋으로 사용)
④ 모수 유의성 검정
- 모집단과 모수 관계 : 모집단의 평균은 모수, 표본의 평균은 통계량
- 모집단 평균에 대한 유의성 검정
. Z-검정 : 정규 분포 가정, 추출된 표본이 동일 모집단에 속하는지 가설을 검증
. T-검정 : 두 집단 간의 평균을 비교하는 모수적 통계 방법, 정규 분포의 평균을 측정시 사용, 모집단이 정규분포만 아는 경우
. 분산 분석(ANOVA) : 두 개 이상의 집단간 비교 수행, F-분포 이용
- 모집단 분산에 대한 유의성 검정
. 카이제곱 검정 : 두 집단간 동질성 검정, 자유도 n이 작을 수록 왼쪽으로 치우침. n이 클수록 정규분포
. F-검정 : 두 표본의 분산 차이가 통계적으로 유의한지 검정
⑤ 적합도 검정
- 가정된 확률이 정해진 경우 : 카이제곱 검정
- 가정된 확률이 안정해진 경우(=정규성 검정) : [샤콜Q] 샤피로-윌크 검정,
콜모고르프-스미르노트 적합성 검정, Q-Q plot