[국가기술자격 빅데이터분석기사] 빅데이터분석기사 - 필기 정리1

1장 : 빅데이터 기획

1. 빅데이터 이해

(1) 데이터 정의

  • DIKW 피라미드
    데이터(Data)(가공전)→정보(Information)(가공)→지식(Knowledge)(구조화+고유아이디어)→지혜(Wisdom)(지식축적+창의적)
  • 지식 형태 : 표출화(암묵지→형식지), 연결화(형식지→형식지), 내면화(형식지→암묵지), 공통화(암묵지→암묵지)

(2) 빅데이터

  • 특징 : 5V = 3V(Volume, Variety, Velocity) + Veracity(신뢰성), Value(가치)
  • 활용 변화 : 사전→사후처리, 표본→전수조사, 질→양, 인과→상관관계
  • 위기요인 : 노출→사생활 침해, 예측→책임원칙 훼손, 오분석→데이터 오용

(3) 데이터 사이언스 = IT기술 + 비즈니스분석(컨설팅) + 분석(통계/머신러닝

  • 데이터사이언티스트 : Hard Skill(빅데이터, 분석), Soft Skill(통찰, 의사전달, 협력)
  • 조직구조 : 집중(전담 부서), 기능(부서 배치), 분산(현업 직접배치 + 전담조직)

(4) 빅데이터와 인공지능 : 인공지능 > 머신러닝(컴퓨터) > 딥러닝(자율적)

(5) 빅데이터 플랫폼 : 하둡 에코시스템

  • 수집 : Kafka, Flume(로그), Zookeeper
  • 분석 : Hive, Pig
  • 실시간 질의 : Impala
  • 분산DB : HBase, Cassandra
  • 분산저장 : HDFS
  • 리소스관리 : YARN
  • 데이터전송 : Scoop

(6) 개인정보 법/제도

  • 데이터 3법 : 개인정보보호법, 정보통신망법, 신용정보법
  • 빅데이터 개인정보보호 가이드라인
  • 개인정보 비식별 조치 가이드라인 : 사전검토→비식별조치→적정성평가→사후관리

(7) 사후관리

  • 비식별화
    ・ 가명 : 휴리스틱, K익명화, 암호화, 교환
    ・ 마스킹 : 임의 잡음 추가, 공백, 대체
    ・ 범주화 : 범주화(은폐화/감추기), 제어라운딩, 랜덤라운딩, 범위화
    ・ 삭제 : 식별자, 부분, 레코드 삭제
    ・ 총계 : 총합, 부분합, 라운딩, 재배열
  • 적정성평가 : K-익명성, l-다양성(동질성, 배경지식 대응), t-근접성(쏠림 대응)
  • 마이 데이터 : 투명/신뢰/통제/가치 관점 정보주체가 개인정보를 직접 관리하는 운동
    = 핵심은 개인정보 전송요구권

2. 데이터 분석 계획

(1) 분석문제정의

  • 하향식(정의된 문제 해결) : 비즈니스 모델, 외부 참조모델, 분석 유스케이스 활용
  • 상향식(문제 정의 어려움) : 데이터 기반 문제 정의 후 해결 탐색
  • 디자인사고(Design Thinking) : 상향식 문제 도출, 하향식 해결 과정을 반복

(2) 분석문제 해결방안

  • 분석대상 Known : 분석방법 Known(최적화), 분석방법 Unknown(솔루션)
  • 분석대상 UnKnown : 분석방법 Known(통찰), 분석방법 Unknown(발견)

(3) 분석방법론

  • KDD(5) : 데이터선택→전처리→변환→데이터마이닝→해석/평가
  • CRISP-DM(6) : 업무이해→데이터이해→데이터준비→모델링→평가→전개

3. 데이터 수집 및 저장 계획

(1) 데이터 유형

  • 구조 : 정형, 비정형, 반정형(구조형태, HTML/XML)
  • 저장형태 : 파일(로그, 텍스트), DB, 콘텐츠(텍스트, 오디오, 비디오), 스트림

(2) 데이터 속성

  • 범주형 : 명목형, 순서형 ☞ 명목척도, 등간척도(순서무관), 서열측도
  • 수치형 : 이산형, 연속형(구간) ☞ 비율척도(절대 영점 존재, 키/무게/수량/길이)

(3) 데이터 수집 기술

  • 정형 : ETL, FTP, Open API
  • 비정형 : Crawling, RSS, FTP, Open API, 웹크롤링 Scrapy, Kafka
  • 반정형 : Sensing, Streaming, Scribe, Flume, Chukwa

(4) 데이터 처리 기술

  • 필터링 : 오류탐색, 보정, 중복/삭제 확인
  • 변환 : 평활화(노이즈 구간화/군집화), 집계, 일반화(스케일링), 정규화, 속성생성
  • 정제, 통합, 축소

(5) 데이터 저장 플랫폼

  • DW : 주제 + 직접분석
  • 데이터레이크 : 원천 + 분석 솔루션 필요

2장 : 빅데이터 탐색

1. 데이터 전처리

(1) 정제(Cleansing)

  • 노이즈 : 입력되지 않았는데 입력되었다고 잘못 판단한 값
  • 결측값(N/A, Blank) : 필수적인 데이터가 입력되지 않고 누락된 값
    • 결측값 유형
    ・ 완전 무작위결측(MCAR) : 결과에 영향 X, 다른변수 연관 X
    ・ 무작위결측(MAR) : 결과에 영향 X, 다른변수 연관 O
    ・ 비 무작위결측(NMAR) : 결과에 영향 O, 다른변수 연관 O
    • 결측값 처리 : 삭제, 단순 대치, 다중 대치(단순 대치 여러번)
    ・ 단순 대치 유형
    = 완전분석 : 불완전 무시, 관측된 자료만 사용
    = 평균대치 : 중위수/최빈값, 다른 변수와 관계 있는 경우
    = 단순확률대치 : 핫덱(응답값으로 무응답 대체), 콜드덱(외부/다른 출처), 혼합
  • 이상값(Outlier)
    • 검출
    ・ 통계지표 : ESD(표준편차3), 기하평균(표준편차2.5), 사분위수(3사-1사분위*1.5)
    ・ 시각화 : 히스토그램, 시계열, 밀도차트(값별 밀도), 박스(1~3분위 기준)
    ・ 군집분석 : 비지도 학습
    ・ 마할라노비스거리 : 관측치가 평균에서 벗어난 정도
    ・ LOF : 관측치와 주변 밀도의 상대적인 비교
    ・ iForest : 의사결정트리
    • 이상값 처리 : 삭제(극단값 절단), 대체(결측값 처리와 동일)

(2) 분석변수 처리

  • 변수(Feature) : 독립변수(x, 원인/예측), 종속변수(y, 반응/결과), 파생변수(분해/결합)
  • 변수 선택
    • 필터 : 통계적 상관관계를 탐색
    • 래퍼(하위 집합 반복 선택) : 전진선택, 후진제거, 단계적(병행)
    = 래퍼기법의 변수 선택 품질은 회귀모형으로 분석
    = 회귀모형적합도: F-값(클수록), 결정계수 R2(1 근접), 의사결정계수 AIC(작을수록)
    • 임베디드 : 모델에 변수 선택이 포함 ☞ 라쏘, 릿지, 엘라스틱넷

(3) 파생변수 생성

  • 로그/지수변환 : 치우친 변수의 기울기를 감소 시킴
  • 비닝(Binning) : 연속형 → 범주형으로 변환 위해 몇 개의 Bin으로 분할하여 계산
  • 더비 변수화 : 범주형 → 연속형으로 변환 위해 값이 있으면 1, 없으면 0
  • 스케일링 : 최소/최대 정규화, Z-스코어 정규화

(4) 차원축소

  • 차원 : 변수(Feature)의 수, 차원이 커지면 다중공선성 발생
    • 다중공선성 : 독립변수들 간의 강한 상관관계, 모델의 정확도/신뢰도 저하 초래
  • 차원 축소 : 다른 분석 전단계, 분석 수행 후 개선, 시각화에 사용
    • 주성분분석(PCA) : 여러 차원을 행렬분해를 이용 선형결합
    • (선형)판별분석(LDA) : 연속형 본수의 선형조합(판별함수)으로 집단 구분 예측
    => 판별함수 수 = min(범주-1, 독립변수)
    • 요인분석(Factor Analysis) : 관찰 불가 변수 존재 시 공통 요인을 찾아 요약
    => 유형 : 확인적(연역적), 귀납적(탐색적) 분석
    • 다차원척도법(MDS) : 유사성 기반 내재 구조 집단화하고 상대적 위치로 시각화
    => 적합도 좋으면 스트레스는 0에 근접
    • 독립성분분석(ICA) : 다변량의 신호를 통계적으로 독립적인 하부성분으로 분리
    • 특이값 분해(SVD) : 행렬분해(M X N 행렬데이터)를 적용하여 특이값 추출

(5) 불균형 데이터 처리 : 딥러닝에서는 과대표집 적용

  • 과소표집(Under Sampling): 다수 클래스 데이터 일부 선택 ☞ 정상 데이터 손실 위험
  • 과대표집(Over Sampling) : 소수 클래스 데이터 무작위 복제 ☞ 중복 값 발생 위험
  • SMOKE : 과대표집의 일종, 알고리즘을 통해 소수 클래스에 새로운 데이터 생성

2. 데이터 탐색

(1) EDA(탐색적데이터분석) : 범주형(중심성/변동성 파악), 수치형(정규성 파악)

  • 특징
    • 저항성(결측, 이상치에 영향 적게 받는 성질), 잔차(주 경향에서 벗어난 정도), 자료 재표현(적당한 척도로 변환), 현시성(시각화)
  • 기초통계량
    • 중심 경향 : 평균(산술평균, 기하평균(제곱), 조화평균(역수)), 중위수, 최빈값
    • 산포 : 범위, 분산, 표준편차, 변동계수(상대표준편차), 사분위수
    • 분포 : 왜도, 첨도
    => 왼쪽 긴 꼬리(왜도<0), 오른쪽 긴 꼬리(왜도>0), 평평(첨도<0), 뾰족(첨도>0)
  • 상관관계 : 산점도, 상관계수(1에 가까울수록) = 공분산(관계방향 O, 강도 X)
    • 상관계수 유형 : 피어슨(수치형), 카이제곱 검정(범주형), 스피어만(순서형)
  • 시각화 : 히스토그램(연속형), 막대그래프(범주형), 박스플롯, 산점도

(2) 고급 데이터 탐색

  • 시공간 데이터(점/선/면) : 코로플레스지도, 카토그램(지도 면적 왜곡), 버블플롯맵
  • 다변량 데이터 : 상관분석(산점도행렬이용), 주성분분석, 선형판별분석, 다차원척도법
  • 비정형 데이터 탐색

(3) 기술통계

  • 데이터 요약 : 기초통계량, 상관관계 분석
  • 표본추출 : 단순무작위, 계통(체계), 층화(외부적 이질), 군집(계층내 이질)
  • 확률분포
    • 연속확률분포 == 확률밀도함수
    ・ 정규 분포(왜도0, 첨도3), 표준정규분포(표준0, 분산/표준편차 1)
    ・ t-분포, F-분포, 카이제곱분포, 균등분포, 감마분포, 베타분포, 지수분포
    • 이산확률분포 == 확률질량함수
    ・ 이항분포 : n번의 시행중 P확률로 k번 성공할 확률
    ・ 포아송분포 : 단위 시간/면적당 확률 분포
    ・ 다항분포, 기하분포, 초기하분포
  • 표본분포
    • 큰 수 법칙(n이 커질수록 분산은 0), 중심극한정리(n이 커질수록 정규분포에 근사)

(4) 추론통계

  • 점추정 조건
    • 불편성(Unbiasedness) : 추정량의 기대값은 모집단의 모수와 차이가 없음
    • 효율성 : 추정량의 분산이 작을수록 좋음
    • 일치성 : 표본이 클수록 모수와 같아짐
    • 충족성 : 추정량은 모수에 대한 모든 정보를 제공
  • 구간추정
    • 신뢰구간 : 표준편차/신뢰수준과 비례, 표본크기와 반비례
    • 신뢰수준 : 추정값이 존재하는 구간에 모수가 포함될 확률
  • 가설검정
    • 가설의 종류
    ・ 귀무가설 : 기존과 비교해 변화/차이가 없음 = 기각되면 통계적으로 유의미
    ・ 대립가설(연구가설) : 표본을 통해 입증
    • 가설 검정 : “P-값 < 유의수준”이면 귀무가설을 기각하고 대립가설을 채택
    ・ P-값 : 귀무가설이 참이라는 가정에 따라 검정 통계량이 나타날 가능성
    ・ 유의수준 : 기각/채택의 기준 = 일반적으로 5%
    ・ 검정방법 : 양측검정(같은지 여부), 단측검정(큰지/작은지 여부)
  • 가설 검정 오류 = α 를 작은 값으로 고정시키고 검정력을 최대화 한다
    • 1종 오류 : 귀무가설이 참인데 기각
    ・ 유의수준(α, 1종 오류를 범할 최대 허용확률), 신뢰수준(1-α)
    • 2종 오류 : 귀무가설이 거짓인데 채택
    ・ 베타수준(β, 2종 오류를 범할 최대 허용확률), 검정력(1-β)

[출처] https://velog.io/@jhbale11/%EB%B9%85%EB%8D%B0%EC%9D%B4%ED%84%B0%EB%B6%84%EC%84%9D%EA%B8%B0%EC%82%AC-%ED%95%84%EA%B8%B0-%EC%A0%95%EB%A6%AC1

 

경축! 아무것도 안하여 에스천사게임즈가 새로운 모습으로 재오픈 하였습니다.
어린이용이며, 설치가 필요없는 브라우저 게임입니다.
https://s1004games.com

 

 

본 웹사이트는 광고를 포함하고 있습니다.
광고 클릭에서 발생하는 수익금은 모두 웹사이트 서버의 유지 및 관리, 그리고 기술 콘텐츠 향상을 위해 쓰여집니다.
번호 제목 글쓴이 날짜 조회 수
공지 오라클 기본 샘플 데이터베이스 졸리운_곰 2014.01.02 25085
공지 [SQL컨셉] 서적 "SQL컨셉"의 샘플 데이타 베이스 SAMPLE DATABASE of ORACLE 가을의 곰을... 2013.02.10 24564
공지 [G_SQL] Sample Database 가을의 곰을... 2012.05.20 25943
1005 [국가기술자격 빅데이터분석기사] 빅데이터 분석기사 정보 및 필기 시험 후기 분석 (기출 문제 정리) file 졸리운_곰 2022.09.21 57
1004 [국가기술자격 빅데이터분석기사] `빅데이터분석기사` 자격증의 허상 졸리운_곰 2022.09.21 40
1003 [국가기술자격 빅데이터분석기사] 빅데이터 분석기사 요약 - 4과목. 빅데이터 결과 해석 졸리운_곰 2022.09.19 29
1002 [국가기술자격 빅데이터분석기사]빅데이터 분석기사 요약 - 3과목. 빅데이터 모델링 file 졸리운_곰 2022.09.19 41
1001 [국가기술자격 빅데이터분석기사]빅데이터 분석기사 요약 - 2과목. 빅데이터 탐색 file 졸리운_곰 2022.09.19 24
1000 [국가기술자격 빅데이터분석기사]빅데이터 분석기사 요약 - 1과목. 빅데이터 분석 기획 졸리운_곰 2022.09.19 50
999 [국가기술자격 빅데이터분석기사] [빅데이터분석기사 필기 요약] I.빅데이터 분석 기획 - 02. 데이터 분석 계획 file 졸리운_곰 2022.09.15 40
998 [국가기술자격 빅데이터분석기사][빅데이터분석기사 필기 요약] I.빅데이터 분석 기획 - 01. 빅데이터의 이해 (3) 졸리운_곰 2022.09.15 10
997 [국가기술자격 빅데이터분석기사][빅데이터분석기사 필기 요약] I.빅데이터 분석 기획 - 01. 빅데이터의 이해 (2) file 졸리운_곰 2022.09.13 17
996 [국가기술자격 빅데이터분석기사] [빅데이터분석기사 필기 요약] I.빅데이터 분석 기획 - 01. 빅데이터의 이해 (1) 졸리운_곰 2022.09.13 29
995 [국가기술자격 빅데이터분석기사] [인공지능] 베이즈 정리 ( Bayes' theorem ) file 졸리운_곰 2022.09.04 21
994 [ 국가기술자격 빅데이터분석기사 ] 빅데이터와 베이즈 정리 file 졸리운_곰 2022.09.04 42
993 [tensorflow] [인공지능] TensorFlow GPU 동작 확인 방법 file 졸리운_곰 2022.09.04 51
» [국가기술자격 빅데이터분석기사] 빅데이터분석기사 - 필기 정리1 file 졸리운_곰 2022.09.01 119
991 [국가기술자격 빅데이터분석기사] 빅데이터분석기사 노트정리 공유 file 졸리운_곰 2022.09.01 171
990 [국가기술자격 빅데이터분석기사] 빅데이터 분석기사 : 개요 및 특징 file 졸리운_곰 2022.09.01 60
989 [국가기술자격 빅데이터분석기사] 빅데이터 분석 기사 개요 file 졸리운_곰 2022.09.01 24
988 [tensorflow] TensorFlow 2.x 에서 1.x 코드 사용하기 졸리운_곰 2022.08.07 67
987 [tensorflow] 텐서플로 - TF 1.*버전 vs 2.*버전 file 졸리운_곰 2022.08.07 56
986 [Mysql] mysql에서 json 다루기 file 졸리운_곰 2022.08.02 52
대표 김성준 주소 : 경기 용인 분당수지 U타워 등록번호 : 142-07-27414
통신판매업 신고 : 제2012-용인수지-0185호 출판업 신고 : 수지구청 제 123호 개인정보보호최고책임자 : 김성준 sjkim70@stechstar.com
대표전화 : 010-4589-2193 [fax] 02-6280-1294 COPYRIGHT(C) stechstar.com ALL RIGHTS RESERVED