DIKW 피라미드

- 데이터 : A는 사탕이 100원, B는 사탕이 200원

- 정보 : A가 더 저렴

- 지식 : A에서 구매해야지

- 지혜 : 다른 상품도 A가 저렴할 것이다.

빅데이터 특징

- 규모(volume)

- 다양성(variety)

- 속도(velocity)

- 신뢰성(veracity) / 가치(value) : 5V

- 정확성(validity) / 휘발성(volatility) : 7V

빅데이터 유형

- 정형 : DBMS

- 반정형 : XML, HTML, JSON

- 비정형 : 텍스트 문서, 이진 파일, 이미지, 동영ㅇ상

지식 구분 [내공표연]  ("너의 내공을 잘 표연해봐~")

- 암묵지 : 겉으로 들어나지 않음 (면화, 통화)

- 형식지 : 문서나 메뉴얼로 형상화 (출화, 결화)

빅데이터 가치 산정 어려운 이유

- 데이터 활용방식 다양화 : 데이터 재사용, 재조합

- 기존에 없던 가치 창출

- 저가의 분석기술로 급속 발전

빅데이터의 위기 요인과 통제방안

- 사생활 침해 : 동의에서 책임 강조

- 책임 원칙 훼손 : 결과 기반 책임 원칙 고수

- 데이터 오용 : 알고리즘 접근 허용

데이터 분석 조직 유형

- 집중 구조 : 전담 조직, 우선순위 따라 진행, 일부 현업 부서와 분석 업무가 중복 또는 이원화 가능성

- 기능 구조 : 별도로 분석 조직X, 해당 업무 부서에서 직접 분석

- 분산 구조 : 분석 조직 인력을 현업 부서에 배치, BP 공유 가능, 신속

데이터 사이언티스트에게 요구하는 역량

- 소프트 스킬 : 비판능력, 호기심, 커뮤니케이션, 스토리텔링, 시각화

- 하드 스킬 : 빅데이터 이론지식, 분석기술

조직성과 평가 > 균형 성과표(BCS ; balanced score acre) 관점 [재고내학]

-

-

- 부 프로세스

- 습/성장 : 미래지향

빅데이터 구축 플랫폼

- 구성요소 : 수집, 저장, 분석, 활용

- 플랫폼 SW : R, 우지, 플럼, HBase, Sqoop

- 분산 환경 SW : 맵리듀스, 얀, 아차피 스파크, HDFS, 하둡

하둡 에코 시스템 수집/저장/처리 기술

- 비정형 수집 : 척화, 플럼, 스크라이브

- 정형 수집 : 스쿱, 히호

- 저장 : HDFS

- 처리 : 맵리듀스

- DB : HBase

하둡 에코 시스템 가공/분석 기술

- 가공 : 피그, 하이브

- 데이터 마이닝 : 머하웃(mahout)

- 실시간 질의 : 임팔라

- 워크플로우 : 우지

- 코디네이터 : 주키퍼

빅데이터 개인정보 가이드 라인

- 비식별화

- 개인정보 재식별 시, 파기/비식별 조치

- 민감정보 처리 금지

- 투명성 확보 : 개인정보 취급방침, 수집 출처 고지

- 수집정보의 보호조치

데이터 3법 [개정신]

- 인정보 보호법

- 보통신망법

- 용정보법

개인정보 자기 결정권

- 정보 주체가 자신의 정보가 어떻게 사용되는지 스스로 결정할 수 있는 권리

마이데이터

- 개인 정보를 신용이나 자산관리 등에 능동적으로 활용하는 일련의 과정

- 원칙 : 통제, 제공, 활용

개인정보 비식별 절차

- 사전검토 > 비식별 조치 > 적정성 평가 > 사후 관리

개인정보 비식별 조치 [가총범삭마]

- 명처리

- 계처리

- 주화

-

- 스킹

빅데이터 비유

- 산업혁명의 석탄, 철

- 21세기 원유, 렌즈(구글), 플랫폼

빅데이터의 변화

- 사전처리 > 사후처리

- 표본조사 > 전수조사

- 질 > 양

- 인과관계 > 상관관계

가치 패러다임의 변화

- 디지털, 연결, 에이전시

+ Recent posts