DIKW 피라미드
- 데이터 : A는 사탕이 100원, B는 사탕이 200원
- 정보 : A가 더 저렴
- 지식 : A에서 구매해야지
- 지혜 : 다른 상품도 A가 저렴할 것이다.
빅데이터 특징
- 규모(volume)
- 다양성(variety)
- 속도(velocity)
- 신뢰성(veracity) / 가치(value) : 5V
- 정확성(validity) / 휘발성(volatility) : 7V
빅데이터 유형
- 정형 : DBMS
- 반정형 : XML, HTML, JSON
- 비정형 : 텍스트 문서, 이진 파일, 이미지, 동영ㅇ상
지식 구분 [내공표연] ("너의 내공을 잘 표연해봐~")
- 암묵지 : 겉으로 들어나지 않음 (내면화, 공통화)
- 형식지 : 문서나 메뉴얼로 형상화 (표출화, 연결화)
빅데이터 가치 산정 어려운 이유
- 데이터 활용방식 다양화 : 데이터 재사용, 재조합
- 기존에 없던 가치 창출
- 저가의 분석기술로 급속 발전
빅데이터의 위기 요인과 통제방안
- 사생활 침해 : 동의에서 책임 강조
- 책임 원칙 훼손 : 결과 기반 책임 원칙 고수
- 데이터 오용 : 알고리즘 접근 허용
데이터 분석 조직 유형
- 집중 구조 : 전담 조직, 우선순위 따라 진행, 일부 현업 부서와 분석 업무가 중복 또는 이원화 가능성
- 기능 구조 : 별도로 분석 조직X, 해당 업무 부서에서 직접 분석
- 분산 구조 : 분석 조직 인력을 현업 부서에 배치, BP 공유 가능, 신속

데이터 사이언티스트에게 요구하는 역량
- 소프트 스킬 : 비판능력, 호기심, 커뮤니케이션, 스토리텔링, 시각화
- 하드 스킬 : 빅데이터 이론지식, 분석기술
조직성과 평가 > 균형 성과표(BCS ; balanced score acre) 관점 [재고내학]
- 재무
- 고객
- 내부 프로세스
- 학습/성장 : 미래지향
빅데이터 구축 플랫폼
- 구성요소 : 수집, 저장, 분석, 활용
- 플랫폼 SW : R, 우지, 플럼, HBase, Sqoop
- 분산 환경 SW : 맵리듀스, 얀, 아차피 스파크, HDFS, 하둡
하둡 에코 시스템 수집/저장/처리 기술
- 비정형 수집 : 척화, 플럼, 스크라이브
- 정형 수집 : 스쿱, 히호
- 저장 : HDFS
- 처리 : 맵리듀스
- DB : HBase
하둡 에코 시스템 가공/분석 기술
- 가공 : 피그, 하이브
- 데이터 마이닝 : 머하웃(mahout)
- 실시간 질의 : 임팔라
- 워크플로우 : 우지
- 코디네이터 : 주키퍼
빅데이터 개인정보 가이드 라인
- 비식별화
- 개인정보 재식별 시, 파기/비식별 조치
- 민감정보 처리 금지
- 투명성 확보 : 개인정보 취급방침, 수집 출처 고지
- 수집정보의 보호조치
데이터 3법 [개정신]
- 개인정보 보호법
- 정보통신망법
- 신용정보법
개인정보 자기 결정권
- 정보 주체가 자신의 정보가 어떻게 사용되는지 스스로 결정할 수 있는 권리
마이데이터
- 개인 정보를 신용이나 자산관리 등에 능동적으로 활용하는 일련의 과정
- 원칙 : 통제, 제공, 활용
개인정보 비식별 절차
- 사전검토 > 비식별 조치 > 적정성 평가 > 사후 관리
개인정보 비식별 조치 [가총범삭마]
- 가명처리
- 총계처리
- 범주화
- 삭제
- 마스킹
빅데이터 비유
- 산업혁명의 석탄, 철
- 21세기 원유, 렌즈(구글), 플랫폼
빅데이터의 변화
- 사전처리 > 사후처리
- 표본조사 > 전수조사
- 질 > 양
- 인과관계 > 상관관계
가치 패러다임의 변화
- 디지털, 연결, 에이전시
'빅데이터분석기사' 카테고리의 다른 글
[빅분기-필기요약] 6. 통계기법 이해 (2) | 2023.04.08 |
---|---|
[빅분기-필기요약] 5. 데이터 탐색 (3) | 2023.04.08 |
[빅분기-필기요약] 4. 데이터 전처리 (2) | 2023.04.08 |
[빅분기-필기요약] 3. 데이터 수집 및 저장 계획 (2) | 2023.04.08 |
[빅분기-필기요약] 2. 데이터 분석 계획 (3) | 2023.04.08 |