EDA 특징

- 저항성 : 오류가 있어도 영향을 적게 받음

- 잔차 해석 : 주 경향에 벗어난 값이 왜 존재하는지 탐색

- 자료 재표현 : 원래 변수를 적당한 척도(로그, 제곱근, 역수) 변환

- 현시성 : 시각화

다차원 데이터 탐색방법

- 범주형 <> 범주형 : 막대 그래프 활용

- 수치형 <> 수치형 : 변수간 상관성 분석, 산점도 활용, 피어슨 상관계수/공분산 통해 방향성 확인

- 범주형 <> 수치형 : 박스플롯 활용

상관관계 분석

- 양의 상관관계, 음의 상관관계, 상관관계 없음 : -1 <= 상관계수 <= 1

- 산점도 활용

- 공분산 : 2개 변수간 상관정도, 경향 이해 but 선형관계 강도를 알지 못함

변수 속성 따른 상관성 분석 방법 [수피순스명카]

- 치 데이터(구간/비율) : 어슨 상관계수

- 서 데이터(순서척도) : 피어만 상관계수

- 목 데이터(명목척도) : 이제곱 검정(교차분석)

중심 경향성의 기초 통계량

- 평균, 중위수, 최빈값

산포도의 기초 통계량

- 범위 : 최대값-최소값

- 분산 : 평균으로 흩어진 편차의 제곱 합

- 표준편차 : 분산의 제곱근

- 변동계수 : 측정 단위가 다른 자료를 상대적으로 비교하는 '상대 표준편차'

- 사분위수 범위(IQR) : 자료의 중간 50%에 포함, Q3-Q1

데이터 분포를 나타내는 통계량

- 왜도 : 치우친 정도, ※왼쪽 편포(평균<중위값<최빈값, 0보다 작음), ※오른쪽 편포(최빈값<중위수<평균, 0보다 큼)

- 첨도 : 뾰족한 정도, 0보다 크면 정규분포보다 뾰족, 0보다 작으면 정규분포보다 덜 뾰족

시각적 탐색

- 히스토그램 : 붙어있는 막대, 가로축은 수치형, 막대 넓이는 동일

- 막대 그래프 : 떨어진 막대, 막대넓이는 같이 않아도 됨.

- 박스플롯 : 이상치 확인, 사분위수

- 산점도 : 연속형 변수 관계 확인

변량 데이터 유형

- 일변량 데이터 : 하나의 속성만 측정, 종속변수 1개

- 이변량 데이터 : 각 단위에 대해 두개 특성 측정, 종속변수 2개

- 다변량 데이터 : 한 단위에 대해 2개 이상 특성 측정, 종셕변수 2개 이상, 이변량도 다변량 데이터임

다변량 데이터 탐색도구

- 산점도 행렬, 별 그림

데이터 전처리(data preprocessing) 절차

- 데이터 정제 > 결측치 처리 > 이상값 처리 > 분석변수 처리

데이터 정제(data cleansing) 절차

- 결측값을 채우거나 이상값 제거 : 신뢰도 향상

- 데이터 오류 원인 분석 > 데이터 정제 대상 선정 > 데이터 정체 방법 결정

데이터 오류원인 [결노이]

- 측값 : 입력 누락

- 이즈 : 입력되었다고 잘못 판단한 값

- 상값 : 데이터 범위에서 벗어난 값

데이터 정제 방법

- 삭제 : 오류 데이터 삭제, 부분 삭제

- 대체 : 평균/최빈/중앙값으로 대체

- 예측값 삽입 : 회귀 예측등으로 삽입

데이터 일관성 유지위한 정제 방법

- 변환 : 남/여 → M/F

- 파싱 : 주민번호에서 생년월일, 성별로 분할

- 보강(enhancement) : 주민번호에서 성별 추출 후, 추가 정보 반영

데이터 세분화

- 이질적인 집단을 몇 개의 동적 소집단으로 분할

- 계층적 방법 : 사전에 군집 안정함, 응집분석법/분할분석법

- 비계층적 방법 : 사전에 군집 정함, k-means/ANN

데이터 결측값 종류 [완무비]

- 전 무작위 결측(MCAR) : 소득 데이터 누락 > 응답자와 무응답자간의 차이가 없음

- 작위 결측(MAR) : 우울증 정도의 데이터 누락 > 남성이 기재할 확률 낮음, 우울 정도와는 무관

- 무작위 결측(MNAR) : 소득 데이터 누락 > 세금을 이유로, 높은 소득인 사람이 무응답률 높음

데이터 결측값 처리 절차

- 결측값 식별 > 결측값 부호화(NA, NaN, inf, NULL) > 결측값 대체

결측값 처리 방법

- 단순 대치법 [완평단]

. 전 분석법

. 균 대치법 : 비조건부 평균대치법, 조거부 평균대치법

. 순 확률 대치법 : 핫덱 대체, 콜드덱 대체, 혼합 방법

- 다중 대치법 : m번 대치를 통해 m개의 가상적 완전한 자료 만듦, 대치 > 분석 > 결합 단계로 구성

데이터 이상값 발생 원인

- 데이터 입력 오류

- 측정 오류

- 실험 오류

- 고의적 이상값

- 표본추출 에러

데이터 이상값 검출 방법

- 개별 데이터 관찰

- 통계값 : ESD(평균에서 3 표준편차 떨어진 값), 기하평균, 사분위수, 표준화점수(z-score), 딕슨의 Q검정, 그럽스 T검정, 카이제곱 검정, 통계적 가설검정

- 시각화 [확히시] : 률밀도함수, 스토그램, 계열 차트

- 머신러닝 기법 : k-means

- 마할라노비스 거리 : 데이터 분포 고려한 거리 측도

- LOF(local outlier factor) :밀도의 상대적 비교

- iForest : 의사결정나무 이용, 적은 횟수로 잎 노드에 도달하면 이상치 가능성 높음

데이터 이상값 처리

- 삭제

- 대체법

- 변환

- 박스플롯 : 사분위수

- 분류하여 처리

변수 유형

- 인과관계 : 독립변수 -> 종속변수

- 범주형 : 명목형, 순서형

- 수치형 : 연속형, 이산형

변수 선택 기법 [필래임]

- 터 기법 : 통계적 특성, 고속, 변수간 상관관계 찾기, 정보소득/카이제곱 검정/피셔 스코어/상관계수

- 퍼 기법 : 가장 좋은 성능을 보이는 하위집합을 반복해서 선택/테스트, 그리디, 느림, 과적합 위험 존재, 예측 정확도 높음, RFE/SFS/유전자 알고리즘/단변량 선택/mRMR

- 베디드 기법 : 모델의 정확도에 기여하는 변수 찾기, 라쏘(L1, 절대값 합을 최소화)/릿지(L2, 제곱합 최소화)/엘라스틱 넷(L1+L2 선형결합), SelectFromModel(의사결정나무 기반)

차원 축소

- 비지도 학습, 변수들 정보 유지하면서 변수의 개수를 줄이는기법

- 주성분 분석(PCA), 특이값 분해(SVD), 요인 분석, 독립성분분석(ICA), 다차원 척도법(MDS)

파생변수

- 기존 변수 사용해 새롭게 정의한 변수

- 방법 : 단위변환, 표현형식 변환, 요약통계량 변환, 변수 결합

변수 변환

- 불필요한 변수 제거/반환해서 새로운 변수 생성

- 단순기능 변환(로그 변환,루트 변환), 비닝(binning), 정규화, 표준화

불균형 데이터 처리

- 언더 샘플링 : 다수 클래스 데이터를 일부만 선택해 데이터 비율을 맞추는 것, 데이터 소실 큼, ENN/OSS/CNN/토멕링크

- 오버 샘플링 : 소스 클래스의 데이터를 복제/생성해서 데이터 비율을 맞추는 것, 과적합, SMOTE/ADASYN

- 임계값 이동 : 임계값을 데이터가 많은 쪽으로 이동

- 앙상블 이동 : 다양한 모형의 예측/분류 결과를 종합해 최종 의사결정에 활용

데이터 수집 프로세스

1. 필요한 수집 데이터 도출

2. 데이터 목록 작성

3. 데이터 소유기관 파악 및 협의

4. 데이터 유형 분류 및 확인

5. 수집 기술 선정

6. 수집 계획서 작성

7. 수집 주기 결정

8. 데이터 수집 실행

정형 데이터 수집 방식/기술

- ETL : 추출 > 변환 > 적재 => DW, DM

- FTP : TCP/IP 기반, active/passive FTP

- DB to DB : DB간 동기화

- Rsync : 파일과 디렉토리 동기화

- 스쿱 : RDBMS에서 하둡으로 데이터 전송, 전송 병렬화, 프로그래밍 방식의 인터렉션, 벌크 임포트

반정형 데이터 수집 방식/기술

- 센싱

- 스트리밍

- 플럼 : pub/sub 구조, pull 방식, 파일기반 저장방식, 소스/채널/싱크로 구성

- 스크라이브

- 척와 : 분산된 서버의 에이전트 실행 > 컬렉터가 데이터 수집 > 싱크는 임시저장 역할, 청크 단위 전송

비정형 데이터 수집 방식/기술

- 크롤링

- RSS : 새로 게시된 글 공유, XML 기반

- Open API : 실시간 데이터 송수신

- 스크래파이(scrapy) : 파이썬 기반

- 아파치 카프카 : 대용량 실시간 로그 처리, 스트리밍 플랫폼, 생상자/소비자/카프카 클러스터

데이터 속성

- 범주형(질적 변수) : 명목형, 순서형

- 수치형(양적 변수) : 연속형, 이산형

데이터 측정 척도 [명순구비]

- 명목 척도 : 값은 의미만 가짐, 혈액형

- 순위 척도(서열 척도) : 값이 서열을 의미, 맛집 평점

- 구간 척도(등간/간격/거리 척도) : 동일 간격으로 차이 비교, 미세먼지 수치

- 비율 척도 : 절대 영점 있음, 순서와 의미가 모두 있음, 나이/키

데이터 변환 기술

- 평활화 : 잡음을 제거를 위한 이상값 제거, 데이터를 매끄럽게 변환

- 집계 : 그룹 연산 수행

- 일반화 : 스케일링, 범용적 데이터로 변환

- 정규화 : 정해진 구간내로 변환 (최소-최대 정규화, z-스코어 정규화, 소수점 정규화)

- 속성 생성 : 속성이나 특성을 이용해 일반화

데이터 비식별화 처리 기법 [가총범삭마]

- 명처리 : 휴리스틱 익명화, K-익명화, 암호화, 교환(swaping)

- 계처리 : 단순집계, 부분집계, 라운딩(올림,내림), 데이터 재배열

- 주화 : 단순평균, 랜덤 올림/절사, 분포/구간 표현 등

- 제 : 속성값 삭제, 데이터 행 삭제 등

- 스킹 : 임의 잡음값 추가, 공백/대체

데이터 품질 특성

- 유효성 [일정]

> 관성 [일정무] : 치성,합성,결성

> 확성 [필연적사정] : 수성, 관성, 합성, 실성, 확성

- 활용성 [유접적보]

> 용성 : 충분성, 유연성 사용성, 추적성

> 근성

> 시성

> 안성

데이터 변환후 품질 검증 프로세스

- 빅데이터 수집 > 메타 데이터 수집 > 메타 데이터 분석 > 데이터 속성 분석

빅데이터 적재 소프트웨어 아키텍처 정의

- 수집 : 크롤러, ETL, 연계/수집 플랫폼

- 적재 및 저장 : 데이터 구성 플랫폼, RDB, NoSQL, Object 스토리지, 빅데이터 자원관리

- 분석 : 빅데이터 분석 모델, 분석 플랫폼

- 활용 : 데이터 시각화, 데이터 활용 플랫폼, Open API 서비스

데이터 적재 도구

- Fluentd, 플럼, 스크라이브, 로그스태쉬(logstash)

데이터 저장 기술

- 분산 파일 시스템, 데이터베이스 클러스터, NoSQL, 병렬 DBMS, 네트워크 구성 저장 시스템, 클라우드 파일 저장 시스템

구글 파일 시스템(GFS)

- 파일을 청크단위(64MB) 나눠, 여러 복제본을 청크서버에 분산/저장

- 클라이언트(posix 미지원), 마스터, 청크 서버로 구성

- 클라이언트가 GFS 마스터에 파일 요청 > 마스터는 청크의 매핑정보 찾아서 해당 청크 서버에 전송 요청 > 해당 청크 서버는 클라이언트에서 청크 데이터 전송

하둡 분산 파일 시스템(HDFS)

- 블록 구조의 파일시스템

- 1개 네임노드 : 메타데이터 관리, 마스터 역할, 데이트 노드로 하트비트 받아 노드상태/블록상태 체크

- 1개 이상 보조 네임노드 : HDFS 상태 모니터링, 네임노드의 주기적 스냅샷

- N개 데이터 노드 : 슬레이브 노드, 데이터 입출력 처리, 3중 복제 저장

러스터

- 객체 기반 클러스터 파일 시스템

- 계층화된 tcp/ip, 인피니밴드 지원

- 클라이언트 파일 시스템(고속 네트워크 연결), 메타데이터 서버, 객체 저장 서버로 구성

데이터베이스 클러스터

- 공유 디스크 클러스터(ex.RAC), 무공유 클러스터(ex. galera)

NoSQL

- schemaless, 조인연산 x, 수평적 확장 가능, BASE, CAP 이론에서 2개 속성만 만족

- Key-value(redis, dynamoDB), Column Family(cassandra, HBase), Document(mongdb, couchbase), Graph(neo4j, allegroGraph)

BASE

- Basically Available : 언제든 데이터 접근 가능, 분산 시스템이라 가용성 의미

- Soft state : 특정 시점에 일시적 일관성 미보장, 외부 전송된 정보로 노드상태 결정

- Eventaully consistency : 결국 일관성을 마춰짐

CAP 이론

- Consistency(일관성), Availability(가용성), Partition Tolerance(분산 가능) 에서 2가지만 만족

- C + A => RDBMS

- A + P => NoSQL

- C + P => NoSQL

데이터 분석의 하향식 접근 방식

- ★분석 과제가 정해짐 > 해결방안 탐색

분석 역량(Who)
분석기법 및 시스템(How)
구분
확보
미확보
기존 시스템
기존 시스템 개선
역량 확고
신규 도입
고도화
전문업체 소싱

데이터 분석의 상향식 접근 방식

- ★문제 정의가 안된 상태

- 디자인 사고 접근법, 비지도 학습, 프로토타이핑 접근법 사용

빅데이터 분석 기획 유형 [OSID] - ("운영체제 아이디")

분석 대상(what)
분석
방법
(how)
 
known
unknown
known
Optimization
(최적화)
Insight
(통찰)
unknown
Solution
(솔루션)
Discovery
(발견)

데이터분석 우선순위 평가기준

- 난이도 : 투자비용요소(volume, variety, velocity)

- 시급성 : 비즈니스 효과(value)

- 분석과제의 적용 우선순위가 '시급성'이면 3-4-2, '난이도'라면 3-1-2 순으로 의사결정 수행

 
현재 시급성 미래
어려움
난이도
쉬움
1
2
3
4

빅데이터 분석 방법론 계층 [단태스]

- 단계 : 완성된 단계별 산출물 생성, 기준선/버전관리

- 태스크 : 단계를 구성하는 단위 활동

- 스텝 : input/tool/output 으로 구성된 단위 프로세스

빅데이터 분석 방법론의 분석절차

1. 분석 기획 : 비즈니스 이해와 범위 설정, 프로젝트 정의와 계획 수립, 프로젝트 위험 계획 수립

2. 데이터 준비 : 필요 데이터 정의, 데이터 스토어 설계, 데이터 수집 및 정합성 점검

3. 데이터 분석 : 분석용 데이터 준비, 텍스트 분석, 탐색적 분석, 모델링, 모델 평가 및 검증

4. 시스템 구현 : 설계 및 구현, 시스템 테스트 및 운영

5. 평가 및 전개 : 모델 발전 계획 수립, 프로젝트 평가 및 보고

KDD 분석 방법론 (5개 절차)

- 통계적 패턴/지식 찾기 위해 정리한 방법론

1. 데이터 셋 선택 : 도메인 이해, 타겟 데이터 구성

2. 데이터 전처리 : 노이즈 이상치, 결측값 제거

3. 데이터 변환 : 변수 찾고 차원축소

4. 데이터 마이닝 : 알고리즘 선택, 패턴 찾기, 데이터 분류, 예측 작업

5. 결과 평가 : 결과의 해석/평가, 발견된 지식 활용

CRISP-DM 분석 방법론 (4개 구성요소, 6개 절차)

- 데이터 분석 목적의 데이터 마이닝 방법론

- 구성 [단일세프] : 계 > 반화 태스크 > 분화 태스크 > 로세스 실행

1. 업무 이해 : 목적/상황 파악, 데이터 마이닝 목표 설정, 프로젝트 계획 수립

2. 데이터 이해 : 초기 데이터 수집/기술 분석/탐색/품질 확인

3. 데이터 준비 : 분석용 데이터셋 선택, 데이터 정제/통합, 학습/검증 데이터 분리

4. 모델링 : 모델링 기법 선택, 테스트 계획 설계/수행/평가

5. 평가 : 분석/모델링 결과 평가

6. 전개 : 모니터링/유지보수 계획 수립, 산출물 작성성

SEMMA 분석 방법론 (5개)

- 샘플링 > 탐색 > 수정 > 모델링 > 검증

분석 기획 시 고려사항

- 가용 데이터, 유즈케이스, 사전 계획 수립

DIKW 피라미드

- 데이터 : A는 사탕이 100원, B는 사탕이 200원

- 정보 : A가 더 저렴

- 지식 : A에서 구매해야지

- 지혜 : 다른 상품도 A가 저렴할 것이다.

빅데이터 특징

- 규모(volume)

- 다양성(variety)

- 속도(velocity)

- 신뢰성(veracity) / 가치(value) : 5V

- 정확성(validity) / 휘발성(volatility) : 7V

빅데이터 유형

- 정형 : DBMS

- 반정형 : XML, HTML, JSON

- 비정형 : 텍스트 문서, 이진 파일, 이미지, 동영ㅇ상

지식 구분 [내공표연]  ("너의 내공을 잘 표연해봐~")

- 암묵지 : 겉으로 들어나지 않음 (면화, 통화)

- 형식지 : 문서나 메뉴얼로 형상화 (출화, 결화)

빅데이터 가치 산정 어려운 이유

- 데이터 활용방식 다양화 : 데이터 재사용, 재조합

- 기존에 없던 가치 창출

- 저가의 분석기술로 급속 발전

빅데이터의 위기 요인과 통제방안

- 사생활 침해 : 동의에서 책임 강조

- 책임 원칙 훼손 : 결과 기반 책임 원칙 고수

- 데이터 오용 : 알고리즘 접근 허용

데이터 분석 조직 유형

- 집중 구조 : 전담 조직, 우선순위 따라 진행, 일부 현업 부서와 분석 업무가 중복 또는 이원화 가능성

- 기능 구조 : 별도로 분석 조직X, 해당 업무 부서에서 직접 분석

- 분산 구조 : 분석 조직 인력을 현업 부서에 배치, BP 공유 가능, 신속

데이터 사이언티스트에게 요구하는 역량

- 소프트 스킬 : 비판능력, 호기심, 커뮤니케이션, 스토리텔링, 시각화

- 하드 스킬 : 빅데이터 이론지식, 분석기술

조직성과 평가 > 균형 성과표(BCS ; balanced score acre) 관점 [재고내학]

-

-

- 부 프로세스

- 습/성장 : 미래지향

빅데이터 구축 플랫폼

- 구성요소 : 수집, 저장, 분석, 활용

- 플랫폼 SW : R, 우지, 플럼, HBase, Sqoop

- 분산 환경 SW : 맵리듀스, 얀, 아차피 스파크, HDFS, 하둡

하둡 에코 시스템 수집/저장/처리 기술

- 비정형 수집 : 척화, 플럼, 스크라이브

- 정형 수집 : 스쿱, 히호

- 저장 : HDFS

- 처리 : 맵리듀스

- DB : HBase

하둡 에코 시스템 가공/분석 기술

- 가공 : 피그, 하이브

- 데이터 마이닝 : 머하웃(mahout)

- 실시간 질의 : 임팔라

- 워크플로우 : 우지

- 코디네이터 : 주키퍼

빅데이터 개인정보 가이드 라인

- 비식별화

- 개인정보 재식별 시, 파기/비식별 조치

- 민감정보 처리 금지

- 투명성 확보 : 개인정보 취급방침, 수집 출처 고지

- 수집정보의 보호조치

데이터 3법 [개정신]

- 인정보 보호법

- 보통신망법

- 용정보법

개인정보 자기 결정권

- 정보 주체가 자신의 정보가 어떻게 사용되는지 스스로 결정할 수 있는 권리

마이데이터

- 개인 정보를 신용이나 자산관리 등에 능동적으로 활용하는 일련의 과정

- 원칙 : 통제, 제공, 활용

개인정보 비식별 절차

- 사전검토 > 비식별 조치 > 적정성 평가 > 사후 관리

개인정보 비식별 조치 [가총범삭마]

- 명처리

- 계처리

- 주화

-

- 스킹

빅데이터 비유

- 산업혁명의 석탄, 철

- 21세기 원유, 렌즈(구글), 플랫폼

빅데이터의 변화

- 사전처리 > 사후처리

- 표본조사 > 전수조사

- 질 > 양

- 인과관계 > 상관관계

가치 패러다임의 변화

- 디지털, 연결, 에이전시

AWS MFA(Multi Factor Auth.)가 설정된 상태입니다. PC가 바뀌어서 aws console 접속도 안되고, MFA 키값 저장도 안해서 MFA 인증 설정을 할 수 없는 난처한 상황입니다. 그렇지만 EC2 서버 접속은 가능하고, aws configure에 액세스 키와 시크릿 키는 모두 저장된 상태입니다.

​이렇게 난감한 상황에서 바로 MFA 비활성화해서 AWS Console을 로그인하는 방법이 필요합니다. 해결책은 아래에 있습니다.

1. aws configure 확인

 aws ec2 접속한 상태에서 aws 접속 키는 아래와 같이 저장되어 있음을 확인합니다.

ubuntu@ip-100-0-11-89:~$ aws configure list
      Name                    Value             Type    Location
      ----                    -----             ----    --------
   profile                <not set>             None    None
access_key     ****************2Q6Z shared-credentials-file
secret_key     ****************ufYS shared-credentials-file
    region           ap-northeast-2      config-file    ~/.aws/config
ubuntu@ip-100-0-11-89:~$

2. MFA의 SerialNumber 확인

MFA 비활성화 위해 아래 명령어를 사용해서 이전에 설정한 MFA SerialNumber 값을 확인합니다. 즉, arn:aws:iam::061234567890:mfa/manager 값을 별도로 보관합니다.

ubuntu@ip-100-0-11-89:~/temp$ aws iam list-virtual-mfa-devices
{
    "VirtualMFADevices": [
        {
            "SerialNumber": "arn:aws:iam::061234567890:mfa/manager",
            "User": {
                "Path": "/",
                "UserName": "mspmanager",
                "UserId": "ABCDE5QJOOGZE123QABCD",
                "Arn": "arn:aws:iam::061234567890:user/manager",
                "CreateDate": "2022-02-20T11:10:00Z",
                "PasswordLastUsed": "2022-03-25T05:09:39Z"
            },
            "EnableDate": "2022-03-25T00:22:35Z"
        }
    ]
}

3. aws iam deactivate-mfa-device 구문으로 비활성화

aws iam deactivate-mfa-device 구문을 수행하며 바로 MFA가 비활성화된다. 즉시 id/pw 만으로 aws console 로그인이 가능해진다.

- 구문 : aws iam deactivate-mfa-device --user-name [IAM 유저] --serial-number [시리얼넘버]

ubuntu@ip-100-0-11-89:~$ aws iam deactivate-mfa-device --user-name manager --serial-number arn:aws:iam::061234567890:mfa/manager

MFA 활성화가 되면, AWS Console에 접속하여 아이디와 비밀번호 입력만으로 로그인이 되는지 확인합니다. 위 순서대로 차근차근 수행했다면, 다른 오류없이 정상 로그인이 될 것입니다.

'AWS' 카테고리의 다른 글

[기초] AWS 아키텍처로 서브넷, EC2, RDS 이해하기  (1) 2023.04.08

+ Recent posts