회차 접수기간 시험일 결과발표 증비서류 제출기간
제 7회 필기 2023.8.21 ~ 25 9.23 (토) 10.13 10.16 ~ 10.26
실기 2023.10.30 ~ 11.3 12.2 (토) 12.22 -
제 6회 필기 2023.3.6 ~ 10 4.8 (토) 4.28  
실기 2023.5.22 ~ 26 6.24 (토) 7.14  
제 5회 필기 2022.8.29 ~ 9.2 10.1 (토) 10.21  
실기 2022.11.7 ~ 11 12.3 (토) 12.23  
제 4회 필기 2022.3.7 ~ 14 4.9 (토) 4.29  
실기 2022.5.23 ~ 27 6.25 (토) 7.15  
제 3회 필기 2021.9.6 ~ 10 10.2 (토) 10.22  
실기 2021.11.8 ~ 12 12.4 (토) 12.31  
제 2회 필기 2021.3.2 ~ 5 4.17 (토) 5.7  
실기 2021.5.24 ~ 28 6.19 (토) 7.16  

빅데이터 분석기사 3회차 실기

단답형 답/유형

- 표준편차
- 데이터 범주화
- 중심연결법
- 최대최소정규화(minmax scale)
- 앙상블
- 서포트벡터머신(SVM)
- 0.13 (인공신경망 출력계산)
- 거리 (KNN 관련)
- 명목형(Nominal)
- 향상도(lift)

 

제1작업형 유형

- 상위 70% 추출하고 사분위수 Q1의 값 출력
- 2000년도 감염자 수의 평균보다 큰 나라의 개수 출력
- 결측치의 비율이 가장 높은 변수명 출력

제2작업형 유형

- 단순한 분류 예측(0 또는 1 형태를 예측)
  . 주어진 데이터를 탐색 → 전처리 → 데이터 학습/평가 → 분류 결과값 계산 → 최종 결과를 csv 파일에 저장
  . 독립변수 7개를 통해서 종속변수 1개(0 또는 1) 분류하기


빅데이터 분석기사 2회차 실기

단답형 답/유형

- 이상값 or 이상치 or Outlier
- 평균대치법
- 후진 제거법 or Backward elimination
- 비지도 학습 or Unsupervised learning
- 하이퍼 파라미터 or Hyper parameter
- 랜덤 포레스트 or Random forest
- 부스팅 or Boosting
- 과적합 or 과대적합 or Overfitting
- ROC 커브(curve)
- 퍼셉트론에서 주어진 은닉층 정보, 편향을 활용해서 출력값 계산하는 문제 (문제 유형)

제1작업형 유형

- 데이터 셋의 A 칼럼에서 1~9번째로 큰 값을 10번째로 큰 값으로 변경한다. 그 후 특정한 조건에 대한 B 컬럼의 평균값을 출력한다.
- 데이터 셋의 결측치를 중앙값으로 보정한 셋을 계산한다. 이 후 보정 전 후의 표준편차의 차이값을 출력한다.
- 이상치 값들의 합계을 출력한다.

제2작업형 유형

- 단순한 분류 예측(0 또는 1 형태를 예측) : 주어진 데이터를 탐색 → 전처리 → 데이터 학습/평가 → 분류 결과값 계산 → 최종 결과를 csv 파일에 저장

1. 분석 결과 해석

① 분석 모형 해석

- 데이터 시각화 기능 : [설탐표] 명,색,

- 데이터 시각화 목적 : 정보 전달, 설득

- 데이터 시각화 유형 : [시분관비공] 간 시각화, 포 시각화, 계 시각화, 교 시각화, 간 시각화

- 빅데이터 시각화 도구 : 태블로, 인포그램, 차트 블록, 데이터 래퍼

- 데이터 시각화 절차 : [구시표] 조화 → 각화 → 시각현(인터랙션, 그래프 보정 등)

② 비즈니스 기여도 평가

- 총 소유 비용(TCO : Total Cost of Ownership)

- 투자 대비 효과(ROI : Return On Investment)

- 순 현재가치(NPV : Net Present Value) : 특정 시점의 투자 금액과 매출금액의 차이를 이자율을 고려해서 계산한 값

- 내부 수익률(IRR : Internal Rate of Return) : 순 현재가치를 0으로 만드는 할인율

- 투자 회수 기간(PP : Payback Period) : 누계 투자금액과 매출금액의 합이 같아지는 기간

 

2. 분석 결과 시각화

[시분관비공]

간 시각화 [막선누영계] - 막선나는 영계이다.

- 대 그래프

- 그래프

- 적 막대 그래프

- 역 차트

- 단식 그래프

포 시각화 [도파트] - 현재는 도레미 파트 중에 도 파트를 맡고 있다.

- 넛 차트

- 이 차트

- 리 맵

계 시각화 [산행버히] - 연습을 위해 산행을 가곤 한다. 스타고 히~

- 점도

- 산점도

- 블 차트

- 스토그램

교 시각화 [평체플히스] - 평한 곳에서 체플 히스토리를 듣기도 한다.

- 행좌표 그래프

- 르노프 페이스

- 로팅 바차트

- 트 맵

- 타 차트

간 시각화 [버카도등] - 버카(버스카드) 막선이 누나 에 업혀있다.

- 블 맵

- 토그램

- 트 맵

- 치*

⑥ 인포그래픽

- 유형 : [지도스타비만] 도형, 표형, 토리텔링형, 임라인형, 교분석형, 화형

 

3. 분석 결과 활용

① 분석 모형 전개

- 빅데이터 모형 운영 시스템 적용방안

. 빅데이터 모형 개발/운영 프로세스 : 분석목적 정의 → 가설 검토 → 데이터 준비 및 처리 → 모델링 및 분석 → 정확도 및 성능 평가 → 운영

- 빅데이터 모형 운영 및 개선방안 수립

. 절차 : 예측 오차 계산 → 예측 모형의 점검여부 결정 → 예측 모형의 개선방향 결정

분석 결과 활용 시나리오 개발

- 분석 모형의 결과 활용가능한 분야 파악

. 초기 아이디어 개발의 분류 : 마인드맵 방식의 분류, 친화도표 방식의 분류, 피라미드 방식의 분류

. 가치사슬 관점의 분류

- 분류 결과의 적용가능한 서비스 영역 도출

- 적합한 신규 서비스 모형 도출

. 신규 서비스 모형에 대한 개념 도출

. 신규 서비스 모형 정의 : 서비스 개념도 관점으로 서비스 모형 정의, ITO 프로세스 관점으로 서비스 모형 정의

- 서비스 모형에 대한 활용방안 제시

. 조직 내부에서 빅데이터 서비스 제공을 위한 채널 시스템 활용방안 수립

. 사업을 추진하기 위한 비즈니스 모형 활용방안 수립

③ 분석 모형 모니터링

- 분석 모형 모니터링 솔루션 : R의 샤이니(shiny, 사용자 작업파일 ui.R, 서버 파일 server.R, 싱글코어)

- 성능 측정 항목

. 주기별 모니터링 : 일간, 주간, 월간, 연간 성능

. 측정 항목 : 응답시간, 사용률, 가용성, 정확성

. 응용 프로그램 : 응답시간/트랜잭션 처리량, 메모리 사용, DB 처리, 예외처리, 배치 실행

. 응용 플랫폼 : 응답시간/트랜잭션 처리량, 대기 큐/대기 시간, 프로세스 상태 및 개수, 세션 상태 및 개수, 통신큐, 채널 상태, 자원 풀, 예외 처리, 부하 분산

. 응용 솔루션 : 구간별 수행 시간, 대기 큐, 메모리/버퍼, 예외처리

- 성능 저하 요인

. 서버 자원 부족, 성능 조정 부족, I/O 조각화 현상, 데이터 이동, 프로그래밍 오류, DB 설계 오류, 악성코드, 버그, 하드웨어 다운, 외부적 요인

. 임계치 설정 및 관리 필요

- 고려사항 : 시뮬레이션과 최적화 수행

④ 분석 모형 리모델링

- 리모델링 개념 : 지속적인 성과 모니터링 통해 편차가 일정수준으로 떨어지면, 빅데이터 모형에 대해 데이터 마이닝(분기별), 시뮬레이션(반기), 최적화(년간)를 수행. 분기/반기/연 단위로 수행

- 리모델링 절차 : 개선용 데이터 수집 및 처리(분석모델 현황 분석 > 성능 검토 > 개선 필요성 결정)분석 모델 개선(파라미터 조정. 분석 알고리즘 선정 > 알고리즘 수행 및 분석 결과 기록) → 분석 결과 평가 및 분석 모델 등록(평가 기준 선정 > 분석 결과 검토 > 알고리즘별 결과 비교)

1. 분석 모형 평가

① 평가지표

- 회귀 모형의 평가지표

. SST = SSE + SSR

. SST : 전체 제곱합, 실제값과 평균값의 차이 제곱 합

. SSE : 오차제곱 합, 예측값실제값의 차이 제곱 합

. SSR : 회귀 제곱합, 예측값과 평균값의 차이 제곱 합

. MAE : 평균 절대 오차

. RMSE : 평균 제곱근 오차

. MAPE : 평균 절대 백분율 오차

. MPE : 평균 백분율 오차


. 결정계수 : 회귀 모형이 실제값을 얼마나 잘 나타내는지. 1에 가까울수록 잘 나타내는 것임, 0~1 사이

. 수정된 결정계수 : 부적절 변수를 추가하면 값은 감소함, 결정계수보다 항상 작음

. Mallow's Cp : 부적절 독립변수 추가에 패널티를 부과한 통계량, 작을수록 좋음

- 분류 모형의 평가지표

. 혼동행렬

 
예측값
암 일꺼야
암이 아닐꺼야
실제값
정답 (TP)
틀렸어 (FN)
정상
틀렸어 (FP)
정답 (TN)

. 정확도(accuracy) :

. 민감도(sensitivity) = 재현율(Recall) :

. 특이도(specificity)

. 정밀도(precision)

. F1-Score

. ROC 커브 : x축은 FP, y축은 TP

. AUC(Area Under Curve) : ROC 커브의 아래 면적, 항상 0.5~1값을 가짐. 1에 가까울수록 좋음

. 이익 도표(Gain Chart) : 목표 범주에 속하는 개체들이 임의의 등급에 얼마나 분포하는지.

② 분석 모형 진단

- 데이터 분석 모형의 오류 : 일반화 오류 → 과대적합, 학습 오류 → 과소적합

- 데이터 분석 모형의 검증 : 홀드 아웃 교차 검증(안겹치게 트레이닝 셋, 테스트 셋으로 분리),

다중 교차 검증(무작위 동일크기로 k개의 부분집합으로 분리.

1개는 테스트 셋, k-1개는 트레이닝 셋.)

- 데이터 분석 모형의 시각화 : [구시표] 정보 조화 (데이터 수집 > 분류 > 배열 > 재배열) → 정보 각화 ([시분관비공] 간, 포, 계, 교, 간) → 정보 시각현 (그래픽 7요소, 시각정보 디자인 7원칙)

- 데이터 모형 진단 : 회귀모형 진단 ([등선정독] 분산성, 형성, 상성/정규성, 립성)

. 등분산성 : 잔차의 산점도로 파악(전체적으로 고르게 분포되었는지)

. 선형성 : 잔차의 산점도로 파악

. 정상성 : [샤콜Q] 피로-윌크 검정, 모고로프-스미르노프 적합성 검정. Q-Q plot로 시각화 검정함.

. 독립성 : 잔차의 산점도로 파악(일정한 경향성없이 분포여부), 더빗-왓슨 검정(귀무가설 - 자기 상관관계가 없다. 독립적이다..)

③ 교차 검증

- 홀드 아웃 교차 검증 : 비복원 추출로 학습 데이터와 평가 데이터를 나눔, 계산량이 적음, 데이터 손실 발생

- 랜덤 서브 샘플링 : 표본을 무작위로 추출, 홀드 아웃을 반복하여 데이터 손실 방지

- K-Fold Cross Validation : 1개 테스트 셋, K-1개는 트레이닝 셋. > K값이 증가하면 수행시간/계산 많아짐

- Leave-One-Out Cross Validation(LOOCV) : 1개 샘플만 테스트 셋, N-1개 트레이닝 셋으로 N번 반복

- Leave-p-out Cross Validation(LpOCV) : p개 샘플을 테스트에 사용

- RTL(Repeated Learning Testing) : 랜덤한 비복원 추출

- 부트스트랩 : 단순 랜덤 복원추출, 데이터의 복원 추출, 샘플에 한번도 선택되지 않는 원 데이터는 약 36.8%(테스트 셋으로 사용)

④ 모수 유의성 검정

- 모집단과 모수 관계 : 모집단의 평균은 모수, 표본의 평균은 통계량

- 모집단 평균에 대한 유의성 검정

. Z-검정 : 정규 분포 가정, 추출된 표본이 동일 모집단에 속하는지 가설을 검증

. T-검정 : 두 집단 간의 평균을 비교하는 모수적 통계 방법, 정규 분포의 평균을 측정시 사용, 모집단이 정규분포만 아는 경우

. 분산 분석(ANOVA) : 두 개 이상의 집단간 비교 수행, F-분포 이용

- 모집단 분산에 대한 유의성 검정

. 카이제곱 검정 : 두 집단간 동질성 검정, 자유도 n이 작을 수록 왼쪽으로 치우침. n이 클수록 정규분포

. F-검정 : 두 표본의 분산 차이가 통계적으로 유의한지 검정

⑤ 적합도 검정

- 가정된 확률이 정해진 경우 : 카이제곱 검정

- 가정된 확률이 안정해진 경우(=정규성 검정) : [샤콜Q] 피로-윌크 검정,

모고르프-스미르노트 적합성 검정, Q-Q plot

 

 

2. 분석 모형 개선

① 과대 적합 방지

- 용어 : 과대 적합(Overfitting, 일반화 필요), 과소 적합(Underfitting, 학습 필요)

- 과대 적합 방지

. 데이터 셋 증가

. 모델의 복잡도 감소 : 은닉층 수, 모델의 수용력 낮추기

. 가중치 규제 : 개별 가중치 값 제한하고 모델을 간단하게 만들기

.. L1 규제 : 가중치(w)들의 절대값 합계를 비용함수에 추가, λ|w|

.. L2 규제 : 가중치(w)들의 제곱합을 비용함수에 추가, 1/2*λw2

.. λ : 규제 강도에 대한 하이퍼 파라미터, 비용함수 최소화위해 가중치 w들의 값이 작아져야 함,

. 드롭아웃(Dropout)

.. 신경망 일부를 사용하지 않음

.. 신경망 학습에만 사용, 예측에는 미사용

.. 유형 : 초기 드롭아웃(임의 생략, DNN), 공간적 드롭아웃(특징 맵 내 노드 전체에 대한 드롭아웃 적용 ,CNN), 시간적 드롭아웃(노드 생략이 아님, 연결선 일부를 생략, RNN)

② 매개변수 최적화

- 손실함수 : 학습 모델과 실제 레이블간 차이를 표현함, 작게 만드는 매개변수(가중치, 편향)을 찾아야 함.

- 매개변수 종류 : 가중치(y=ax+b에서 a), 편향(y=ax+b에서 b)

- 최적화 기법

. 확률적 경사 하강법 : 손실함수 기울기 구하기 → 손실함수 최소 지점 찾음, 지역적 최소점에 갇혀서 전체적인 최소점을 못찾을 수 있음, 최소점 가까우면 느리게 진행, 지그재그 모양, 단점개선 방법은 모멘텀/AdaGrad/Adam

. 모멘텀 : 기울기 방향으로 힘을 받으면 물체가 가속되는 물리법칙 이용, 관성 고려해 진동과 폭을 줄이는 효과, 지그재그가 덜함, x축은 일정한 가속이고 y축은 속도가 일정x

. AdaGrad : 손실함수의 기울기 크면 크게 학습하고 최소점에 가까워지면 학습률 줄여서 적게 학습, 각 매개변수에 맞는 학습률을 조절

. Adam : 모멘텀+AdaGrad 장점, 경향은 모멘텀처럼 공이 굴러가듯, AdaGrad로 갱신 강도 조정.

③ 분석 모형 융합

- 취합

. 다수결 : 다수 모형의 결과를 다수결로 산출

. 배깅 : 복원추출로 학습 데이터 셋 나눔, 편향가능성 존재

. 페이스팅(Pasting) : 비복원 추출로 학습 데이터 셋 나눔

. 랜덤 서브스페이스

. 랜덤 패치

. 랜덤 포레스트 : 의사결정나무를 개별 모형으로 수행하고 결과를 결합함

- 부스팅 : 하나의 모형부터 시작해서 개별 모형을 추가

. 에이다 부스트 : 약한 모형에서 잘 분류된 샘플의 가중치는 낮추기, 잘못 분류된 샘플의 가중치는 높이기

. 그래디언트 부스트 : 약한 모형에서 잘못 분류한 샘풀의 에러를 최적화함

 

④ 최종 모형 선정

. 절차 : 최종 모형의 평가 기준 선정 → 최종 모형의 분석 결과 검토 → 알고리즘별 결과 비교(분석 알고리즘별로 파라미터 변경하면서 알고리즘 수행)

1. 기초 분석 기법

① 회귀 분석

② 로지스틱 회귀 분석

③ 의사결정나무

④ 인공신경망

⑤ 서포트 벡터 머신

⑥ 연관성 분석

⑦ 군집 분석

 

2. 고급 분석기법

① 범주형 자료 분석

② 다변량 분석

③ 시계열 분석

④ 베이지안 분석

⑤ 딥러닝 분석

⑥ 비정현 데이터 분석

⑦ 앙상블 분석

⑧ 비모수 통계

1. 분석 절차 수립

① 분석 모형 선정

- 탐색적 데이터 분석(EDA) : 현상에서 패턴 발견

- 통계적 추론 : 현상에서 인과 결론 도출

- 기계학습(머신러닝) : 현상 예측

- 통계기반 분석 모형 선정

. 기술 통계

. 상관 분석

. 회귀 분석 : 유형(단순, 다중, 다항, 로지스틱, 비선형 회귀)

. 분산 분석(ANOVA) : 집단 내 분산의 비교로 얻은 분포로 가설검정, 유형(일원 분산 분석, 이원 분산 분석, 다변량 분산 분석)

. 주성분 분석

. 판별 분석

- 데이터 마이닝 기반 분석 모형 선정

. 분류(classification) : 통계적 기법(로지스틱 회귀 분석, 판별분석), 트리기반(CART 알고리즘), 최적화(SVM), 기계학습(기대 출력값과 실제 출력값 간의 비교로 계산된 오차를 시냅스 역할을 하는 노드에 가중치를 조정하여 모델에 반영, 입력 계층으로 역방향 반영하는 역전파 알고리즘)

. 예측 모델(Prediction) : 회귀 분석, 의사결정나무, 시계열분석, 인공신경망

. 군집화 모델(clustering)

.. 계층적 방법 : 군집수 미정, 응집 분석법/분할 분석법

.. 비계층적 방법 : 군집수 미리 정함, K-means

. 연관규칙 모델(association rule) : 장바구니 분석

- 머신러닝 기반 분석모형 선정

. 지도 학습 [로인의 서랜감]

.. 지스틱 회귀분석 : 반응변수가 범주형

.. 공신경망

.. 사결정나무

.. 포트 머신 벡터

.. 덤 포레스트

.. 성 분석

. 비지도 학습 [군자연차딥] ; 군자는 회사는 연차를 내고 하게 쉬려고 한다.

.. 집화

.. 기 조직화 지도(SOM)

.. 관관계 분석(장바구니 분석)

.. 원축소 기법

.. 러닝

- 데이터 유형 따른 분석방법

. 연속형 x 연속형 : 산점도, 상관성 분석

. 범주형 x 범주형 : 누적 막대 그래프, 카이제곱 분석(두 변수가 독립적인지 여부)

. 범주형 x 연속형 : 누적 막대 그래프, 2개 범주는 T-test, 3개 범주는 ANOVA

. 연속형 독립변수 - 연속형 종속변수 : 회귀 분석, ANN, KNN

. 연속형 독립변수 - 범주형 종속변수 : 로지스틱 회귀 분석, 판별 분석, KNN

. 범주형 독립변수 - 연속형 종속변수 : 회귀 분석, ANN, 의사결정나무

. 범주형 독립변수 - 범주형 종속변수 : ANN, 의사결정나무, 로지스틱 회귀분석

. 연속형 변수 : SVM, 군집 분석, 상관 분석

. 범주형 변수 : 연관성 분석, 판별 분석, 상관 분석

② 분석 모형 정의

③ 분석 모형 구축 절차

2. 분석 환경 구축

① 분석 도구 선정

② 데이터 분할

+ Recent posts