빅데이터분석기사

[빅분기-필기요약] 5. 데이터 탐색

양바른 2023. 4. 8. 22:26

EDA 특징

- 저항성 : 오류가 있어도 영향을 적게 받음

- 잔차 해석 : 주 경향에 벗어난 값이 왜 존재하는지 탐색

- 자료 재표현 : 원래 변수를 적당한 척도(로그, 제곱근, 역수) 변환

- 현시성 : 시각화

다차원 데이터 탐색방법

- 범주형 <> 범주형 : 막대 그래프 활용

- 수치형 <> 수치형 : 변수간 상관성 분석, 산점도 활용, 피어슨 상관계수/공분산 통해 방향성 확인

- 범주형 <> 수치형 : 박스플롯 활용

상관관계 분석

- 양의 상관관계, 음의 상관관계, 상관관계 없음 : -1 <= 상관계수 <= 1

- 산점도 활용

- 공분산 : 2개 변수간 상관정도, 경향 이해 but 선형관계 강도를 알지 못함

변수 속성 따른 상관성 분석 방법 [수피순스명카]

- 치 데이터(구간/비율) : 어슨 상관계수

- 서 데이터(순서척도) : 피어만 상관계수

- 목 데이터(명목척도) : 이제곱 검정(교차분석)

중심 경향성의 기초 통계량

- 평균, 중위수, 최빈값

산포도의 기초 통계량

- 범위 : 최대값-최소값

- 분산 : 평균으로 흩어진 편차의 제곱 합

- 표준편차 : 분산의 제곱근

- 변동계수 : 측정 단위가 다른 자료를 상대적으로 비교하는 '상대 표준편차'

- 사분위수 범위(IQR) : 자료의 중간 50%에 포함, Q3-Q1

데이터 분포를 나타내는 통계량

- 왜도 : 치우친 정도, ※왼쪽 편포(평균<중위값<최빈값, 0보다 작음), ※오른쪽 편포(최빈값<중위수<평균, 0보다 큼)

- 첨도 : 뾰족한 정도, 0보다 크면 정규분포보다 뾰족, 0보다 작으면 정규분포보다 덜 뾰족

시각적 탐색

- 히스토그램 : 붙어있는 막대, 가로축은 수치형, 막대 넓이는 동일

- 막대 그래프 : 떨어진 막대, 막대넓이는 같이 않아도 됨.

- 박스플롯 : 이상치 확인, 사분위수

- 산점도 : 연속형 변수 관계 확인

변량 데이터 유형

- 일변량 데이터 : 하나의 속성만 측정, 종속변수 1개

- 이변량 데이터 : 각 단위에 대해 두개 특성 측정, 종속변수 2개

- 다변량 데이터 : 한 단위에 대해 2개 이상 특성 측정, 종셕변수 2개 이상, 이변량도 다변량 데이터임

다변량 데이터 탐색도구

- 산점도 행렬, 별 그림