데이터 전처리(data preprocessing) 절차
- 데이터 정제 > 결측치 처리 > 이상값 처리 > 분석변수 처리
데이터 정제(data cleansing) 절차
- 결측값을 채우거나 이상값 제거 : 신뢰도 향상
- 데이터 오류 원인 분석 > 데이터 정제 대상 선정 > 데이터 정체 방법 결정
데이터 오류원인 [결노이]
- 결측값 : 입력 누락
- 노이즈 : 입력되었다고 잘못 판단한 값
- 이상값 : 데이터 범위에서 벗어난 값
데이터 정제 방법
- 삭제 : 오류 데이터 삭제, 부분 삭제
- 대체 : 평균/최빈/중앙값으로 대체
- 예측값 삽입 : 회귀 예측등으로 삽입
데이터 일관성 유지위한 정제 방법
- 변환 : 남/여 → M/F
- 파싱 : 주민번호에서 생년월일, 성별로 분할
- 보강(enhancement) : 주민번호에서 성별 추출 후, 추가 정보 반영
데이터 세분화
- 이질적인 집단을 몇 개의 동적 소집단으로 분할
- 계층적 방법 : 사전에 군집 안정함, 응집분석법/분할분석법
- 비계층적 방법 : 사전에 군집 정함, k-means/ANN
데이터 결측값 종류 [완무비]
- 완전 무작위 결측(MCAR) : 소득 데이터 누락 > 응답자와 무응답자간의 차이가 없음
- 무작위 결측(MAR) : 우울증 정도의 데이터 누락 > 남성이 기재할 확률 낮음, 우울 정도와는 무관
- 비 무작위 결측(MNAR) : 소득 데이터 누락 > 세금을 이유로, 높은 소득인 사람이 무응답률 높음
데이터 결측값 처리 절차
- 결측값 식별 > 결측값 부호화(NA, NaN, inf, NULL) > 결측값 대체
결측값 처리 방법
- 단순 대치법 [완평단]
. 완전 분석법
. 평균 대치법 : 비조건부 평균대치법, 조거부 평균대치법
. 단순 확률 대치법 : 핫덱 대체, 콜드덱 대체, 혼합 방법
- 다중 대치법 : m번 대치를 통해 m개의 가상적 완전한 자료 만듦, 대치 > 분석 > 결합 단계로 구성
데이터 이상값 발생 원인
- 데이터 입력 오류
- 측정 오류
- 실험 오류
- 고의적 이상값
- 표본추출 에러
데이터 이상값 검출 방법
- 개별 데이터 관찰
- 통계값 : ESD(평균에서 3 표준편차 떨어진 값), 기하평균, 사분위수, 표준화점수(z-score), 딕슨의 Q검정, 그럽스 T검정, 카이제곱 검정, 통계적 가설검정
- 시각화 [확히시] : 확률밀도함수, 히스토그램, 시계열 차트
- 머신러닝 기법 : k-means
- 마할라노비스 거리 : 데이터 분포 고려한 거리 측도
- LOF(local outlier factor) :밀도의 상대적 비교
- iForest : 의사결정나무 이용, 적은 횟수로 잎 노드에 도달하면 이상치 가능성 높음
데이터 이상값 처리
- 삭제
- 대체법
- 변환
- 박스플롯 : 사분위수
- 분류하여 처리
변수 유형
- 인과관계 : 독립변수 -> 종속변수
- 범주형 : 명목형, 순서형
- 수치형 : 연속형, 이산형
변수 선택 기법 [필래임]
- 필터 기법 : 통계적 특성, 고속, 변수간 상관관계 찾기, 정보소득/카이제곱 검정/피셔 스코어/상관계수
- 래퍼 기법 : 가장 좋은 성능을 보이는 하위집합을 반복해서 선택/테스트, 그리디, 느림, 과적합 위험 존재, 예측 정확도 높음, RFE/SFS/유전자 알고리즘/단변량 선택/mRMR
- 임베디드 기법 : 모델의 정확도에 기여하는 변수 찾기, 라쏘(L1, 절대값 합을 최소화)/릿지(L2, 제곱합 최소화)/엘라스틱 넷(L1+L2 선형결합), SelectFromModel(의사결정나무 기반)
차원 축소
- 비지도 학습, 변수들 정보 유지하면서 변수의 개수를 줄이는기법
- 주성분 분석(PCA), 특이값 분해(SVD), 요인 분석, 독립성분분석(ICA), 다차원 척도법(MDS)
파생변수
- 기존 변수 사용해 새롭게 정의한 변수
- 방법 : 단위변환, 표현형식 변환, 요약통계량 변환, 변수 결합
변수 변환
- 불필요한 변수 제거/반환해서 새로운 변수 생성
- 단순기능 변환(로그 변환,루트 변환), 비닝(binning), 정규화, 표준화
불균형 데이터 처리
- 언더 샘플링 : 다수 클래스 데이터를 일부만 선택해 데이터 비율을 맞추는 것, 데이터 소실 큼, ENN/OSS/CNN/토멕링크
- 오버 샘플링 : 소스 클래스의 데이터를 복제/생성해서 데이터 비율을 맞추는 것, 과적합, SMOTE/ADASYN
- 임계값 이동 : 임계값을 데이터가 많은 쪽으로 이동
- 앙상블 이동 : 다양한 모형의 예측/분류 결과를 종합해 최종 의사결정에 활용
'빅데이터분석기사' 카테고리의 다른 글
[빅분기-필기요약] 6. 통계기법 이해 (2) | 2023.04.08 |
---|---|
[빅분기-필기요약] 5. 데이터 탐색 (0) | 2023.04.08 |
[빅분기-필기요약] 3. 데이터 수집 및 저장 계획 (0) | 2023.04.08 |
[빅분기-필기요약] 2. 데이터 분석 계획 (1) | 2023.04.08 |
[빅분기-필기요약] 1. 빅데이터 이해 (0) | 2023.04.08 |