기술통계

- 데이터 분석 목적으로 수집된 데이터를 확률/통계적 정리/요약하는 기초적 통계

회귀 분석 모형

- 단순 회귀 : 독립변수과 종속변수 1개씩, 모두 수치형

- 다중 회귀 : 2개 이상 독립변수이고 수치형/범주형, 1개 수치형은 종속변수

회귀 분석 모형의 적합성

- 회귀식의 통계적 유의성 평가 : 분산 분석표

- 모형이 잘 설명하는지 확인 : 결정계수

- 전제조건 [등선정독비] : 분산성, 형성, 규성(정상성), 립성, 상관성 => 잔차 그래프로 확인

회귀모델의 독립변수 선택방법

- 전진 선택법 : 종속변수에 큰 영향 주는것부터 하나씩 독립변수로 만듦

- 후진 제거법 : 모든 독립변수부터 시작해서, 중요하지 않은 독립변수값은 차례대로 제거

- 단계적 방법 : 주로 사용, 전진 선택법+후진 제거법 절충안

분산 분석(ANOVA)

- 2개 이상 집단 비교 시에 집단내 분산, 총 평균과 각 집단의 평균 차이에 의해 생긴 집단간 분산 비교로 얻은 F분포 이용해 가설검정

- F 검정 통계량 : 집단 내 분산 대비 집단간 분산이 몇개 더 큰지를 나타내는 값

분산 분석 종류

- 일원분산 분석 : 독립/종속변수 1개씩

- 이원분산 분석 : 독립변수 2개, 종속변수 1개

- 다변량 분산 분석 : 종속변수 2개 이상

주성분 분석

- 기존 변수의 분산/공분산 패턴을 축약한 주성분 변수를 원래 변수의 선형결합으로 추출하는 통계기법

판별 분석

- 집단을 구별할 수 있는 판별규칙 만들어, 새로운 개체가 어느 집단인지 탐색하는 통계기법

표본 추출 기법 [단계층군]

- 단순 무작위 추출 : 규칙없이 표본 추출

- 계통 추출 : 일정 간격으로 추출 ex)끝자리가 7인 사람

- 층화 추출 : 계층 나누고, 계층별 무작위 추출 ex) 지역을 도로 나누고, 도에서 무작위 추출

- 군집 추출 : 군집 나누고 추출

데이터 척도

- 질적 속성 : 명목 척도, 순서 척도

- 양적 속성 : 구간(등간) 척도, 비율 척도

이산확률분포 종류 [포베이]

- 아송 분포 : 주어진 시간/영역에서 어떤 사건 발생횟수를 나타내는 확률분포

- 르누이 분포 : 실험결과가 성공 또는 실패 중 하나를 얻는 확률분포

- 항분포 : n번 시행 중에 k번 성공할 확률분포

연속확률분포 종류 [카표준TF] ; 카~표정이 맞거나 틀리거나

- 이제곱 분포

- 준정규분포(z-분포)

- 규분포

- T 분포 : 정규분포 평균 해석에 많이 사용

- F 분포

EDA 특징

- 저항성 : 오류가 있어도 영향을 적게 받음

- 잔차 해석 : 주 경향에 벗어난 값이 왜 존재하는지 탐색

- 자료 재표현 : 원래 변수를 적당한 척도(로그, 제곱근, 역수) 변환

- 현시성 : 시각화

다차원 데이터 탐색방법

- 범주형 <> 범주형 : 막대 그래프 활용

- 수치형 <> 수치형 : 변수간 상관성 분석, 산점도 활용, 피어슨 상관계수/공분산 통해 방향성 확인

- 범주형 <> 수치형 : 박스플롯 활용

상관관계 분석

- 양의 상관관계, 음의 상관관계, 상관관계 없음 : -1 <= 상관계수 <= 1

- 산점도 활용

- 공분산 : 2개 변수간 상관정도, 경향 이해 but 선형관계 강도를 알지 못함

변수 속성 따른 상관성 분석 방법 [수피순스명카]

- 치 데이터(구간/비율) : 어슨 상관계수

- 서 데이터(순서척도) : 피어만 상관계수

- 목 데이터(명목척도) : 이제곱 검정(교차분석)

중심 경향성의 기초 통계량

- 평균, 중위수, 최빈값

산포도의 기초 통계량

- 범위 : 최대값-최소값

- 분산 : 평균으로 흩어진 편차의 제곱 합

- 표준편차 : 분산의 제곱근

- 변동계수 : 측정 단위가 다른 자료를 상대적으로 비교하는 '상대 표준편차'

- 사분위수 범위(IQR) : 자료의 중간 50%에 포함, Q3-Q1

데이터 분포를 나타내는 통계량

- 왜도 : 치우친 정도, ※왼쪽 편포(평균<중위값<최빈값, 0보다 작음), ※오른쪽 편포(최빈값<중위수<평균, 0보다 큼)

- 첨도 : 뾰족한 정도, 0보다 크면 정규분포보다 뾰족, 0보다 작으면 정규분포보다 덜 뾰족

시각적 탐색

- 히스토그램 : 붙어있는 막대, 가로축은 수치형, 막대 넓이는 동일

- 막대 그래프 : 떨어진 막대, 막대넓이는 같이 않아도 됨.

- 박스플롯 : 이상치 확인, 사분위수

- 산점도 : 연속형 변수 관계 확인

변량 데이터 유형

- 일변량 데이터 : 하나의 속성만 측정, 종속변수 1개

- 이변량 데이터 : 각 단위에 대해 두개 특성 측정, 종속변수 2개

- 다변량 데이터 : 한 단위에 대해 2개 이상 특성 측정, 종셕변수 2개 이상, 이변량도 다변량 데이터임

다변량 데이터 탐색도구

- 산점도 행렬, 별 그림

데이터 전처리(data preprocessing) 절차

- 데이터 정제 > 결측치 처리 > 이상값 처리 > 분석변수 처리

데이터 정제(data cleansing) 절차

- 결측값을 채우거나 이상값 제거 : 신뢰도 향상

- 데이터 오류 원인 분석 > 데이터 정제 대상 선정 > 데이터 정체 방법 결정

데이터 오류원인 [결노이]

- 측값 : 입력 누락

- 이즈 : 입력되었다고 잘못 판단한 값

- 상값 : 데이터 범위에서 벗어난 값

데이터 정제 방법

- 삭제 : 오류 데이터 삭제, 부분 삭제

- 대체 : 평균/최빈/중앙값으로 대체

- 예측값 삽입 : 회귀 예측등으로 삽입

데이터 일관성 유지위한 정제 방법

- 변환 : 남/여 → M/F

- 파싱 : 주민번호에서 생년월일, 성별로 분할

- 보강(enhancement) : 주민번호에서 성별 추출 후, 추가 정보 반영

데이터 세분화

- 이질적인 집단을 몇 개의 동적 소집단으로 분할

- 계층적 방법 : 사전에 군집 안정함, 응집분석법/분할분석법

- 비계층적 방법 : 사전에 군집 정함, k-means/ANN

데이터 결측값 종류 [완무비]

- 전 무작위 결측(MCAR) : 소득 데이터 누락 > 응답자와 무응답자간의 차이가 없음

- 작위 결측(MAR) : 우울증 정도의 데이터 누락 > 남성이 기재할 확률 낮음, 우울 정도와는 무관

- 무작위 결측(MNAR) : 소득 데이터 누락 > 세금을 이유로, 높은 소득인 사람이 무응답률 높음

데이터 결측값 처리 절차

- 결측값 식별 > 결측값 부호화(NA, NaN, inf, NULL) > 결측값 대체

결측값 처리 방법

- 단순 대치법 [완평단]

. 전 분석법

. 균 대치법 : 비조건부 평균대치법, 조거부 평균대치법

. 순 확률 대치법 : 핫덱 대체, 콜드덱 대체, 혼합 방법

- 다중 대치법 : m번 대치를 통해 m개의 가상적 완전한 자료 만듦, 대치 > 분석 > 결합 단계로 구성

데이터 이상값 발생 원인

- 데이터 입력 오류

- 측정 오류

- 실험 오류

- 고의적 이상값

- 표본추출 에러

데이터 이상값 검출 방법

- 개별 데이터 관찰

- 통계값 : ESD(평균에서 3 표준편차 떨어진 값), 기하평균, 사분위수, 표준화점수(z-score), 딕슨의 Q검정, 그럽스 T검정, 카이제곱 검정, 통계적 가설검정

- 시각화 [확히시] : 률밀도함수, 스토그램, 계열 차트

- 머신러닝 기법 : k-means

- 마할라노비스 거리 : 데이터 분포 고려한 거리 측도

- LOF(local outlier factor) :밀도의 상대적 비교

- iForest : 의사결정나무 이용, 적은 횟수로 잎 노드에 도달하면 이상치 가능성 높음

데이터 이상값 처리

- 삭제

- 대체법

- 변환

- 박스플롯 : 사분위수

- 분류하여 처리

변수 유형

- 인과관계 : 독립변수 -> 종속변수

- 범주형 : 명목형, 순서형

- 수치형 : 연속형, 이산형

변수 선택 기법 [필래임]

- 터 기법 : 통계적 특성, 고속, 변수간 상관관계 찾기, 정보소득/카이제곱 검정/피셔 스코어/상관계수

- 퍼 기법 : 가장 좋은 성능을 보이는 하위집합을 반복해서 선택/테스트, 그리디, 느림, 과적합 위험 존재, 예측 정확도 높음, RFE/SFS/유전자 알고리즘/단변량 선택/mRMR

- 베디드 기법 : 모델의 정확도에 기여하는 변수 찾기, 라쏘(L1, 절대값 합을 최소화)/릿지(L2, 제곱합 최소화)/엘라스틱 넷(L1+L2 선형결합), SelectFromModel(의사결정나무 기반)

차원 축소

- 비지도 학습, 변수들 정보 유지하면서 변수의 개수를 줄이는기법

- 주성분 분석(PCA), 특이값 분해(SVD), 요인 분석, 독립성분분석(ICA), 다차원 척도법(MDS)

파생변수

- 기존 변수 사용해 새롭게 정의한 변수

- 방법 : 단위변환, 표현형식 변환, 요약통계량 변환, 변수 결합

변수 변환

- 불필요한 변수 제거/반환해서 새로운 변수 생성

- 단순기능 변환(로그 변환,루트 변환), 비닝(binning), 정규화, 표준화

불균형 데이터 처리

- 언더 샘플링 : 다수 클래스 데이터를 일부만 선택해 데이터 비율을 맞추는 것, 데이터 소실 큼, ENN/OSS/CNN/토멕링크

- 오버 샘플링 : 소스 클래스의 데이터를 복제/생성해서 데이터 비율을 맞추는 것, 과적합, SMOTE/ADASYN

- 임계값 이동 : 임계값을 데이터가 많은 쪽으로 이동

- 앙상블 이동 : 다양한 모형의 예측/분류 결과를 종합해 최종 의사결정에 활용

데이터 수집 프로세스

1. 필요한 수집 데이터 도출

2. 데이터 목록 작성

3. 데이터 소유기관 파악 및 협의

4. 데이터 유형 분류 및 확인

5. 수집 기술 선정

6. 수집 계획서 작성

7. 수집 주기 결정

8. 데이터 수집 실행

정형 데이터 수집 방식/기술

- ETL : 추출 > 변환 > 적재 => DW, DM

- FTP : TCP/IP 기반, active/passive FTP

- DB to DB : DB간 동기화

- Rsync : 파일과 디렉토리 동기화

- 스쿱 : RDBMS에서 하둡으로 데이터 전송, 전송 병렬화, 프로그래밍 방식의 인터렉션, 벌크 임포트

반정형 데이터 수집 방식/기술

- 센싱

- 스트리밍

- 플럼 : pub/sub 구조, pull 방식, 파일기반 저장방식, 소스/채널/싱크로 구성

- 스크라이브

- 척와 : 분산된 서버의 에이전트 실행 > 컬렉터가 데이터 수집 > 싱크는 임시저장 역할, 청크 단위 전송

비정형 데이터 수집 방식/기술

- 크롤링

- RSS : 새로 게시된 글 공유, XML 기반

- Open API : 실시간 데이터 송수신

- 스크래파이(scrapy) : 파이썬 기반

- 아파치 카프카 : 대용량 실시간 로그 처리, 스트리밍 플랫폼, 생상자/소비자/카프카 클러스터

데이터 속성

- 범주형(질적 변수) : 명목형, 순서형

- 수치형(양적 변수) : 연속형, 이산형

데이터 측정 척도 [명순구비]

- 명목 척도 : 값은 의미만 가짐, 혈액형

- 순위 척도(서열 척도) : 값이 서열을 의미, 맛집 평점

- 구간 척도(등간/간격/거리 척도) : 동일 간격으로 차이 비교, 미세먼지 수치

- 비율 척도 : 절대 영점 있음, 순서와 의미가 모두 있음, 나이/키

데이터 변환 기술

- 평활화 : 잡음을 제거를 위한 이상값 제거, 데이터를 매끄럽게 변환

- 집계 : 그룹 연산 수행

- 일반화 : 스케일링, 범용적 데이터로 변환

- 정규화 : 정해진 구간내로 변환 (최소-최대 정규화, z-스코어 정규화, 소수점 정규화)

- 속성 생성 : 속성이나 특성을 이용해 일반화

데이터 비식별화 처리 기법 [가총범삭마]

- 명처리 : 휴리스틱 익명화, K-익명화, 암호화, 교환(swaping)

- 계처리 : 단순집계, 부분집계, 라운딩(올림,내림), 데이터 재배열

- 주화 : 단순평균, 랜덤 올림/절사, 분포/구간 표현 등

- 제 : 속성값 삭제, 데이터 행 삭제 등

- 스킹 : 임의 잡음값 추가, 공백/대체

데이터 품질 특성

- 유효성 [일정]

> 관성 [일정무] : 치성,합성,결성

> 확성 [필연적사정] : 수성, 관성, 합성, 실성, 확성

- 활용성 [유접적보]

> 용성 : 충분성, 유연성 사용성, 추적성

> 근성

> 시성

> 안성

데이터 변환후 품질 검증 프로세스

- 빅데이터 수집 > 메타 데이터 수집 > 메타 데이터 분석 > 데이터 속성 분석

빅데이터 적재 소프트웨어 아키텍처 정의

- 수집 : 크롤러, ETL, 연계/수집 플랫폼

- 적재 및 저장 : 데이터 구성 플랫폼, RDB, NoSQL, Object 스토리지, 빅데이터 자원관리

- 분석 : 빅데이터 분석 모델, 분석 플랫폼

- 활용 : 데이터 시각화, 데이터 활용 플랫폼, Open API 서비스

데이터 적재 도구

- Fluentd, 플럼, 스크라이브, 로그스태쉬(logstash)

데이터 저장 기술

- 분산 파일 시스템, 데이터베이스 클러스터, NoSQL, 병렬 DBMS, 네트워크 구성 저장 시스템, 클라우드 파일 저장 시스템

구글 파일 시스템(GFS)

- 파일을 청크단위(64MB) 나눠, 여러 복제본을 청크서버에 분산/저장

- 클라이언트(posix 미지원), 마스터, 청크 서버로 구성

- 클라이언트가 GFS 마스터에 파일 요청 > 마스터는 청크의 매핑정보 찾아서 해당 청크 서버에 전송 요청 > 해당 청크 서버는 클라이언트에서 청크 데이터 전송

하둡 분산 파일 시스템(HDFS)

- 블록 구조의 파일시스템

- 1개 네임노드 : 메타데이터 관리, 마스터 역할, 데이트 노드로 하트비트 받아 노드상태/블록상태 체크

- 1개 이상 보조 네임노드 : HDFS 상태 모니터링, 네임노드의 주기적 스냅샷

- N개 데이터 노드 : 슬레이브 노드, 데이터 입출력 처리, 3중 복제 저장

러스터

- 객체 기반 클러스터 파일 시스템

- 계층화된 tcp/ip, 인피니밴드 지원

- 클라이언트 파일 시스템(고속 네트워크 연결), 메타데이터 서버, 객체 저장 서버로 구성

데이터베이스 클러스터

- 공유 디스크 클러스터(ex.RAC), 무공유 클러스터(ex. galera)

NoSQL

- schemaless, 조인연산 x, 수평적 확장 가능, BASE, CAP 이론에서 2개 속성만 만족

- Key-value(redis, dynamoDB), Column Family(cassandra, HBase), Document(mongdb, couchbase), Graph(neo4j, allegroGraph)

BASE

- Basically Available : 언제든 데이터 접근 가능, 분산 시스템이라 가용성 의미

- Soft state : 특정 시점에 일시적 일관성 미보장, 외부 전송된 정보로 노드상태 결정

- Eventaully consistency : 결국 일관성을 마춰짐

CAP 이론

- Consistency(일관성), Availability(가용성), Partition Tolerance(분산 가능) 에서 2가지만 만족

- C + A => RDBMS

- A + P => NoSQL

- C + P => NoSQL

데이터 분석의 하향식 접근 방식

- ★분석 과제가 정해짐 > 해결방안 탐색

분석 역량(Who)
분석기법 및 시스템(How)
구분
확보
미확보
기존 시스템
기존 시스템 개선
역량 확고
신규 도입
고도화
전문업체 소싱

데이터 분석의 상향식 접근 방식

- ★문제 정의가 안된 상태

- 디자인 사고 접근법, 비지도 학습, 프로토타이핑 접근법 사용

빅데이터 분석 기획 유형 [OSID] - ("운영체제 아이디")

분석 대상(what)
분석
방법
(how)
 
known
unknown
known
Optimization
(최적화)
Insight
(통찰)
unknown
Solution
(솔루션)
Discovery
(발견)

데이터분석 우선순위 평가기준

- 난이도 : 투자비용요소(volume, variety, velocity)

- 시급성 : 비즈니스 효과(value)

- 분석과제의 적용 우선순위가 '시급성'이면 3-4-2, '난이도'라면 3-1-2 순으로 의사결정 수행

 
현재 시급성 미래
어려움
난이도
쉬움
1
2
3
4

빅데이터 분석 방법론 계층 [단태스]

- 단계 : 완성된 단계별 산출물 생성, 기준선/버전관리

- 태스크 : 단계를 구성하는 단위 활동

- 스텝 : input/tool/output 으로 구성된 단위 프로세스

빅데이터 분석 방법론의 분석절차

1. 분석 기획 : 비즈니스 이해와 범위 설정, 프로젝트 정의와 계획 수립, 프로젝트 위험 계획 수립

2. 데이터 준비 : 필요 데이터 정의, 데이터 스토어 설계, 데이터 수집 및 정합성 점검

3. 데이터 분석 : 분석용 데이터 준비, 텍스트 분석, 탐색적 분석, 모델링, 모델 평가 및 검증

4. 시스템 구현 : 설계 및 구현, 시스템 테스트 및 운영

5. 평가 및 전개 : 모델 발전 계획 수립, 프로젝트 평가 및 보고

KDD 분석 방법론 (5개 절차)

- 통계적 패턴/지식 찾기 위해 정리한 방법론

1. 데이터 셋 선택 : 도메인 이해, 타겟 데이터 구성

2. 데이터 전처리 : 노이즈 이상치, 결측값 제거

3. 데이터 변환 : 변수 찾고 차원축소

4. 데이터 마이닝 : 알고리즘 선택, 패턴 찾기, 데이터 분류, 예측 작업

5. 결과 평가 : 결과의 해석/평가, 발견된 지식 활용

CRISP-DM 분석 방법론 (4개 구성요소, 6개 절차)

- 데이터 분석 목적의 데이터 마이닝 방법론

- 구성 [단일세프] : 계 > 반화 태스크 > 분화 태스크 > 로세스 실행

1. 업무 이해 : 목적/상황 파악, 데이터 마이닝 목표 설정, 프로젝트 계획 수립

2. 데이터 이해 : 초기 데이터 수집/기술 분석/탐색/품질 확인

3. 데이터 준비 : 분석용 데이터셋 선택, 데이터 정제/통합, 학습/검증 데이터 분리

4. 모델링 : 모델링 기법 선택, 테스트 계획 설계/수행/평가

5. 평가 : 분석/모델링 결과 평가

6. 전개 : 모니터링/유지보수 계획 수립, 산출물 작성성

SEMMA 분석 방법론 (5개)

- 샘플링 > 탐색 > 수정 > 모델링 > 검증

분석 기획 시 고려사항

- 가용 데이터, 유즈케이스, 사전 계획 수립

DIKW 피라미드

- 데이터 : A는 사탕이 100원, B는 사탕이 200원

- 정보 : A가 더 저렴

- 지식 : A에서 구매해야지

- 지혜 : 다른 상품도 A가 저렴할 것이다.

빅데이터 특징

- 규모(volume)

- 다양성(variety)

- 속도(velocity)

- 신뢰성(veracity) / 가치(value) : 5V

- 정확성(validity) / 휘발성(volatility) : 7V

빅데이터 유형

- 정형 : DBMS

- 반정형 : XML, HTML, JSON

- 비정형 : 텍스트 문서, 이진 파일, 이미지, 동영ㅇ상

지식 구분 [내공표연]  ("너의 내공을 잘 표연해봐~")

- 암묵지 : 겉으로 들어나지 않음 (면화, 통화)

- 형식지 : 문서나 메뉴얼로 형상화 (출화, 결화)

빅데이터 가치 산정 어려운 이유

- 데이터 활용방식 다양화 : 데이터 재사용, 재조합

- 기존에 없던 가치 창출

- 저가의 분석기술로 급속 발전

빅데이터의 위기 요인과 통제방안

- 사생활 침해 : 동의에서 책임 강조

- 책임 원칙 훼손 : 결과 기반 책임 원칙 고수

- 데이터 오용 : 알고리즘 접근 허용

데이터 분석 조직 유형

- 집중 구조 : 전담 조직, 우선순위 따라 진행, 일부 현업 부서와 분석 업무가 중복 또는 이원화 가능성

- 기능 구조 : 별도로 분석 조직X, 해당 업무 부서에서 직접 분석

- 분산 구조 : 분석 조직 인력을 현업 부서에 배치, BP 공유 가능, 신속

데이터 사이언티스트에게 요구하는 역량

- 소프트 스킬 : 비판능력, 호기심, 커뮤니케이션, 스토리텔링, 시각화

- 하드 스킬 : 빅데이터 이론지식, 분석기술

조직성과 평가 > 균형 성과표(BCS ; balanced score acre) 관점 [재고내학]

-

-

- 부 프로세스

- 습/성장 : 미래지향

빅데이터 구축 플랫폼

- 구성요소 : 수집, 저장, 분석, 활용

- 플랫폼 SW : R, 우지, 플럼, HBase, Sqoop

- 분산 환경 SW : 맵리듀스, 얀, 아차피 스파크, HDFS, 하둡

하둡 에코 시스템 수집/저장/처리 기술

- 비정형 수집 : 척화, 플럼, 스크라이브

- 정형 수집 : 스쿱, 히호

- 저장 : HDFS

- 처리 : 맵리듀스

- DB : HBase

하둡 에코 시스템 가공/분석 기술

- 가공 : 피그, 하이브

- 데이터 마이닝 : 머하웃(mahout)

- 실시간 질의 : 임팔라

- 워크플로우 : 우지

- 코디네이터 : 주키퍼

빅데이터 개인정보 가이드 라인

- 비식별화

- 개인정보 재식별 시, 파기/비식별 조치

- 민감정보 처리 금지

- 투명성 확보 : 개인정보 취급방침, 수집 출처 고지

- 수집정보의 보호조치

데이터 3법 [개정신]

- 인정보 보호법

- 보통신망법

- 용정보법

개인정보 자기 결정권

- 정보 주체가 자신의 정보가 어떻게 사용되는지 스스로 결정할 수 있는 권리

마이데이터

- 개인 정보를 신용이나 자산관리 등에 능동적으로 활용하는 일련의 과정

- 원칙 : 통제, 제공, 활용

개인정보 비식별 절차

- 사전검토 > 비식별 조치 > 적정성 평가 > 사후 관리

개인정보 비식별 조치 [가총범삭마]

- 명처리

- 계처리

- 주화

-

- 스킹

빅데이터 비유

- 산업혁명의 석탄, 철

- 21세기 원유, 렌즈(구글), 플랫폼

빅데이터의 변화

- 사전처리 > 사후처리

- 표본조사 > 전수조사

- 질 > 양

- 인과관계 > 상관관계

가치 패러다임의 변화

- 디지털, 연결, 에이전시

+ Recent posts