빅데이터분석기사

[빅분기-필기요약] 6. 통계기법 이해

양바른 2023. 4. 8. 22:28

기술통계

- 데이터 분석 목적으로 수집된 데이터를 확률/통계적 정리/요약하는 기초적 통계

회귀 분석 모형

- 단순 회귀 : 독립변수과 종속변수 1개씩, 모두 수치형

- 다중 회귀 : 2개 이상 독립변수이고 수치형/범주형, 1개 수치형은 종속변수

회귀 분석 모형의 적합성

- 회귀식의 통계적 유의성 평가 : 분산 분석표

- 모형이 잘 설명하는지 확인 : 결정계수

- 전제조건 [등선정독비] : 분산성, 형성, 규성(정상성), 립성, 상관성 => 잔차 그래프로 확인

회귀모델의 독립변수 선택방법

- 전진 선택법 : 종속변수에 큰 영향 주는것부터 하나씩 독립변수로 만듦

- 후진 제거법 : 모든 독립변수부터 시작해서, 중요하지 않은 독립변수값은 차례대로 제거

- 단계적 방법 : 주로 사용, 전진 선택법+후진 제거법 절충안

분산 분석(ANOVA)

- 2개 이상 집단 비교 시에 집단내 분산, 총 평균과 각 집단의 평균 차이에 의해 생긴 집단간 분산 비교로 얻은 F분포 이용해 가설검정

- F 검정 통계량 : 집단 내 분산 대비 집단간 분산이 몇개 더 큰지를 나타내는 값

분산 분석 종류

- 일원분산 분석 : 독립/종속변수 1개씩

- 이원분산 분석 : 독립변수 2개, 종속변수 1개

- 다변량 분산 분석 : 종속변수 2개 이상

주성분 분석

- 기존 변수의 분산/공분산 패턴을 축약한 주성분 변수를 원래 변수의 선형결합으로 추출하는 통계기법

판별 분석

- 집단을 구별할 수 있는 판별규칙 만들어, 새로운 개체가 어느 집단인지 탐색하는 통계기법

표본 추출 기법 [단계층군]

- 단순 무작위 추출 : 규칙없이 표본 추출

- 계통 추출 : 일정 간격으로 추출 ex)끝자리가 7인 사람

- 층화 추출 : 계층 나누고, 계층별 무작위 추출 ex) 지역을 도로 나누고, 도에서 무작위 추출

- 군집 추출 : 군집 나누고 추출

데이터 척도

- 질적 속성 : 명목 척도, 순서 척도

- 양적 속성 : 구간(등간) 척도, 비율 척도

이산확률분포 종류 [포베이]

- 아송 분포 : 주어진 시간/영역에서 어떤 사건 발생횟수를 나타내는 확률분포

- 르누이 분포 : 실험결과가 성공 또는 실패 중 하나를 얻는 확률분포

- 항분포 : n번 시행 중에 k번 성공할 확률분포

연속확률분포 종류 [카표준TF] ; 카~표정이 맞거나 틀리거나

- 이제곱 분포

- 준정규분포(z-분포)

- 규분포

- T 분포 : 정규분포 평균 해석에 많이 사용

- F 분포