데이터 전처리(data preprocessing) 절차

- 데이터 정제 > 결측치 처리 > 이상값 처리 > 분석변수 처리

데이터 정제(data cleansing) 절차

- 결측값을 채우거나 이상값 제거 : 신뢰도 향상

- 데이터 오류 원인 분석 > 데이터 정제 대상 선정 > 데이터 정체 방법 결정

데이터 오류원인 [결노이]

- 측값 : 입력 누락

- 이즈 : 입력되었다고 잘못 판단한 값

- 상값 : 데이터 범위에서 벗어난 값

데이터 정제 방법

- 삭제 : 오류 데이터 삭제, 부분 삭제

- 대체 : 평균/최빈/중앙값으로 대체

- 예측값 삽입 : 회귀 예측등으로 삽입

데이터 일관성 유지위한 정제 방법

- 변환 : 남/여 → M/F

- 파싱 : 주민번호에서 생년월일, 성별로 분할

- 보강(enhancement) : 주민번호에서 성별 추출 후, 추가 정보 반영

데이터 세분화

- 이질적인 집단을 몇 개의 동적 소집단으로 분할

- 계층적 방법 : 사전에 군집 안정함, 응집분석법/분할분석법

- 비계층적 방법 : 사전에 군집 정함, k-means/ANN

데이터 결측값 종류 [완무비]

- 전 무작위 결측(MCAR) : 소득 데이터 누락 > 응답자와 무응답자간의 차이가 없음

- 작위 결측(MAR) : 우울증 정도의 데이터 누락 > 남성이 기재할 확률 낮음, 우울 정도와는 무관

- 무작위 결측(MNAR) : 소득 데이터 누락 > 세금을 이유로, 높은 소득인 사람이 무응답률 높음

데이터 결측값 처리 절차

- 결측값 식별 > 결측값 부호화(NA, NaN, inf, NULL) > 결측값 대체

결측값 처리 방법

- 단순 대치법 [완평단]

. 전 분석법

. 균 대치법 : 비조건부 평균대치법, 조거부 평균대치법

. 순 확률 대치법 : 핫덱 대체, 콜드덱 대체, 혼합 방법

- 다중 대치법 : m번 대치를 통해 m개의 가상적 완전한 자료 만듦, 대치 > 분석 > 결합 단계로 구성

데이터 이상값 발생 원인

- 데이터 입력 오류

- 측정 오류

- 실험 오류

- 고의적 이상값

- 표본추출 에러

데이터 이상값 검출 방법

- 개별 데이터 관찰

- 통계값 : ESD(평균에서 3 표준편차 떨어진 값), 기하평균, 사분위수, 표준화점수(z-score), 딕슨의 Q검정, 그럽스 T검정, 카이제곱 검정, 통계적 가설검정

- 시각화 [확히시] : 률밀도함수, 스토그램, 계열 차트

- 머신러닝 기법 : k-means

- 마할라노비스 거리 : 데이터 분포 고려한 거리 측도

- LOF(local outlier factor) :밀도의 상대적 비교

- iForest : 의사결정나무 이용, 적은 횟수로 잎 노드에 도달하면 이상치 가능성 높음

데이터 이상값 처리

- 삭제

- 대체법

- 변환

- 박스플롯 : 사분위수

- 분류하여 처리

변수 유형

- 인과관계 : 독립변수 -> 종속변수

- 범주형 : 명목형, 순서형

- 수치형 : 연속형, 이산형

변수 선택 기법 [필래임]

- 터 기법 : 통계적 특성, 고속, 변수간 상관관계 찾기, 정보소득/카이제곱 검정/피셔 스코어/상관계수

- 퍼 기법 : 가장 좋은 성능을 보이는 하위집합을 반복해서 선택/테스트, 그리디, 느림, 과적합 위험 존재, 예측 정확도 높음, RFE/SFS/유전자 알고리즘/단변량 선택/mRMR

- 베디드 기법 : 모델의 정확도에 기여하는 변수 찾기, 라쏘(L1, 절대값 합을 최소화)/릿지(L2, 제곱합 최소화)/엘라스틱 넷(L1+L2 선형결합), SelectFromModel(의사결정나무 기반)

차원 축소

- 비지도 학습, 변수들 정보 유지하면서 변수의 개수를 줄이는기법

- 주성분 분석(PCA), 특이값 분해(SVD), 요인 분석, 독립성분분석(ICA), 다차원 척도법(MDS)

파생변수

- 기존 변수 사용해 새롭게 정의한 변수

- 방법 : 단위변환, 표현형식 변환, 요약통계량 변환, 변수 결합

변수 변환

- 불필요한 변수 제거/반환해서 새로운 변수 생성

- 단순기능 변환(로그 변환,루트 변환), 비닝(binning), 정규화, 표준화

불균형 데이터 처리

- 언더 샘플링 : 다수 클래스 데이터를 일부만 선택해 데이터 비율을 맞추는 것, 데이터 소실 큼, ENN/OSS/CNN/토멕링크

- 오버 샘플링 : 소스 클래스의 데이터를 복제/생성해서 데이터 비율을 맞추는 것, 과적합, SMOTE/ADASYN

- 임계값 이동 : 임계값을 데이터가 많은 쪽으로 이동

- 앙상블 이동 : 다양한 모형의 예측/분류 결과를 종합해 최종 의사결정에 활용

+ Recent posts