국가기술자격 빅데이터분석기사 [국가기술자격 빅데이터분석기사] 빅데이터분석기사 - 필기 정리1

2022.09.01 20:46

졸리운_곰 조회 수:119

[국가기술자격 빅데이터분석기사] 빅데이터분석기사 - 필기 정리1

1장 : 빅데이터 기획

1. 빅데이터 이해

(1) 데이터 정의

DIKW 피라미드
데이터(Data)(가공전)→정보(Information)(가공)→지식(Knowledge)(구조화+고유아이디어)→지혜(Wisdom)(지식축적+창의적)
지식 형태 : 표출화(암묵지→형식지), 연결화(형식지→형식지), 내면화(형식지→암묵지), 공통화(암묵지→암묵지)

(2) 빅데이터

특징 : 5V = 3V(Volume, Variety, Velocity) + Veracity(신뢰성), Value(가치)
활용 변화 : 사전→사후처리, 표본→전수조사, 질→양, 인과→상관관계
위기요인 : 노출→사생활 침해, 예측→책임원칙 훼손, 오분석→데이터 오용

(3) 데이터 사이언스 = IT기술 + 비즈니스분석(컨설팅) + 분석(통계/머신러닝

데이터사이언티스트 : Hard Skill(빅데이터, 분석), Soft Skill(통찰, 의사전달, 협력)
조직구조 : 집중(전담 부서), 기능(부서 배치), 분산(현업 직접배치 + 전담조직)

(4) 빅데이터와 인공지능 : 인공지능 > 머신러닝(컴퓨터) > 딥러닝(자율적)

(5) 빅데이터 플랫폼 : 하둡 에코시스템

수집 : Kafka, Flume(로그), Zookeeper
분석 : Hive, Pig
실시간 질의 : Impala
분산DB : HBase, Cassandra
분산저장 : HDFS
리소스관리 : YARN
데이터전송 : Scoop

(6) 개인정보 법/제도

데이터 3법 : 개인정보보호법, 정보통신망법, 신용정보법
빅데이터 개인정보보호 가이드라인
개인정보 비식별 조치 가이드라인 : 사전검토→비식별조치→적정성평가→사후관리

(7) 사후관리

비식별화
・ 가명 : 휴리스틱, K익명화, 암호화, 교환
・ 마스킹 : 임의 잡음 추가, 공백, 대체
・ 범주화 : 범주화(은폐화/감추기), 제어라운딩, 랜덤라운딩, 범위화
・ 삭제 : 식별자, 부분, 레코드 삭제
・ 총계 : 총합, 부분합, 라운딩, 재배열
적정성평가 : K-익명성, l-다양성(동질성, 배경지식 대응), t-근접성(쏠림 대응)
마이 데이터 : 투명/신뢰/통제/가치 관점 정보주체가 개인정보를 직접 관리하는 운동
= 핵심은 개인정보 전송요구권

2. 데이터 분석 계획

(1) 분석문제정의

하향식(정의된 문제 해결) : 비즈니스 모델, 외부 참조모델, 분석 유스케이스 활용
상향식(문제 정의 어려움) : 데이터 기반 문제 정의 후 해결 탐색
디자인사고(Design Thinking) : 상향식 문제 도출, 하향식 해결 과정을 반복

(2) 분석문제 해결방안

분석대상 Known : 분석방법 Known(최적화), 분석방법 Unknown(솔루션)
분석대상 UnKnown : 분석방법 Known(통찰), 분석방법 Unknown(발견)

(3) 분석방법론

KDD(5) : 데이터선택→전처리→변환→데이터마이닝→해석/평가
CRISP-DM(6) : 업무이해→데이터이해→데이터준비→모델링→평가→전개

3. 데이터 수집 및 저장 계획

(1) 데이터 유형

구조 : 정형, 비정형, 반정형(구조형태, HTML/XML)
저장형태 : 파일(로그, 텍스트), DB, 콘텐츠(텍스트, 오디오, 비디오), 스트림

(2) 데이터 속성

범주형 : 명목형, 순서형 ☞ 명목척도, 등간척도(순서무관), 서열측도
수치형 : 이산형, 연속형(구간) ☞ 비율척도(절대 영점 존재, 키/무게/수량/길이)

(3) 데이터 수집 기술

정형 : ETL, FTP, Open API
비정형 : Crawling, RSS, FTP, Open API, 웹크롤링 Scrapy, Kafka
반정형 : Sensing, Streaming, Scribe, Flume, Chukwa

(4) 데이터 처리 기술

필터링 : 오류탐색, 보정, 중복/삭제 확인
변환 : 평활화(노이즈 구간화/군집화), 집계, 일반화(스케일링), 정규화, 속성생성
정제, 통합, 축소

(5) 데이터 저장 플랫폼

DW : 주제 + 직접분석
데이터레이크 : 원천 + 분석 솔루션 필요

2장 : 빅데이터 탐색

1. 데이터 전처리

(1) 정제(Cleansing)

노이즈 : 입력되지 않았는데 입력되었다고 잘못 판단한 값
결측값(N/A, Blank) : 필수적인 데이터가 입력되지 않고 누락된 값
• 결측값 유형
・ 완전 무작위결측(MCAR) : 결과에 영향 X, 다른변수 연관 X
・ 무작위결측(MAR) : 결과에 영향 X, 다른변수 연관 O
・ 비 무작위결측(NMAR) : 결과에 영향 O, 다른변수 연관 O
• 결측값 처리 : 삭제, 단순 대치, 다중 대치(단순 대치 여러번)
・ 단순 대치 유형
= 완전분석 : 불완전 무시, 관측된 자료만 사용
= 평균대치 : 중위수/최빈값, 다른 변수와 관계 있는 경우
= 단순확률대치 : 핫덱(응답값으로 무응답 대체), 콜드덱(외부/다른 출처), 혼합
이상값(Outlier)
• 검출
・ 통계지표 : ESD(표준편차3), 기하평균(표준편차2.5), 사분위수(3사-1사분위*1.5)
・ 시각화 : 히스토그램, 시계열, 밀도차트(값별 밀도), 박스(1~3분위 기준)
・ 군집분석 : 비지도 학습
・ 마할라노비스거리 : 관측치가 평균에서 벗어난 정도
・ LOF : 관측치와 주변 밀도의 상대적인 비교
・ iForest : 의사결정트리
• 이상값 처리 : 삭제(극단값 절단), 대체(결측값 처리와 동일)

(2) 분석변수 처리

변수(Feature) : 독립변수(x, 원인/예측), 종속변수(y, 반응/결과), 파생변수(분해/결합)
변수 선택
• 필터 : 통계적 상관관계를 탐색
• 래퍼(하위 집합 반복 선택) : 전진선택, 후진제거, 단계적(병행)
= 래퍼기법의 변수 선택 품질은 회귀모형으로 분석
= 회귀모형적합도: F-값(클수록), 결정계수 R2(1 근접), 의사결정계수 AIC(작을수록)
• 임베디드 : 모델에 변수 선택이 포함 ☞ 라쏘, 릿지, 엘라스틱넷

(3) 파생변수 생성

로그/지수변환 : 치우친 변수의 기울기를 감소 시킴
비닝(Binning) : 연속형 → 범주형으로 변환 위해 몇 개의 Bin으로 분할하여 계산
더비 변수화 : 범주형 → 연속형으로 변환 위해 값이 있으면 1, 없으면 0
스케일링 : 최소/최대 정규화, Z-스코어 정규화

(4) 차원축소

차원 : 변수(Feature)의 수, 차원이 커지면 다중공선성 발생
• 다중공선성 : 독립변수들 간의 강한 상관관계, 모델의 정확도/신뢰도 저하 초래
차원 축소 : 다른 분석 전단계, 분석 수행 후 개선, 시각화에 사용
• 주성분분석(PCA) : 여러 차원을 행렬분해를 이용 선형결합
• (선형)판별분석(LDA) : 연속형 본수의 선형조합(판별함수)으로 집단 구분 예측
=> 판별함수 수 = min(범주-1, 독립변수)
• 요인분석(Factor Analysis) : 관찰 불가 변수 존재 시 공통 요인을 찾아 요약
=> 유형 : 확인적(연역적), 귀납적(탐색적) 분석
• 다차원척도법(MDS) : 유사성 기반 내재 구조 집단화하고 상대적 위치로 시각화
=> 적합도 좋으면 스트레스는 0에 근접
• 독립성분분석(ICA) : 다변량의 신호를 통계적으로 독립적인 하부성분으로 분리
• 특이값 분해(SVD) : 행렬분해(M X N 행렬데이터)를 적용하여 특이값 추출

(5) 불균형 데이터 처리 : 딥러닝에서는 과대표집 적용

과소표집(Under Sampling): 다수 클래스 데이터 일부 선택 ☞ 정상 데이터 손실 위험
과대표집(Over Sampling) : 소수 클래스 데이터 무작위 복제 ☞ 중복 값 발생 위험
SMOKE : 과대표집의 일종, 알고리즘을 통해 소수 클래스에 새로운 데이터 생성

2. 데이터 탐색

(1) EDA(탐색적데이터분석) : 범주형(중심성/변동성 파악), 수치형(정규성 파악)

특징
• 저항성(결측, 이상치에 영향 적게 받는 성질), 잔차(주 경향에서 벗어난 정도), 자료 재표현(적당한 척도로 변환), 현시성(시각화)
기초통계량
• 중심 경향 : 평균(산술평균, 기하평균(제곱), 조화평균(역수)), 중위수, 최빈값
• 산포 : 범위, 분산, 표준편차, 변동계수(상대표준편차), 사분위수
• 분포 : 왜도, 첨도
=> 왼쪽 긴 꼬리(왜도<0), 오른쪽 긴 꼬리(왜도>0), 평평(첨도<0), 뾰족(첨도>0)
상관관계 : 산점도, 상관계수(1에 가까울수록) = 공분산(관계방향 O, 강도 X)
• 상관계수 유형 : 피어슨(수치형), 카이제곱 검정(범주형), 스피어만(순서형)
시각화 : 히스토그램(연속형), 막대그래프(범주형), 박스플롯, 산점도

(2) 고급 데이터 탐색

시공간 데이터(점/선/면) : 코로플레스지도, 카토그램(지도 면적 왜곡), 버블플롯맵
다변량 데이터 : 상관분석(산점도행렬이용), 주성분분석, 선형판별분석, 다차원척도법
비정형 데이터 탐색

(3) 기술통계

데이터 요약 : 기초통계량, 상관관계 분석
표본추출 : 단순무작위, 계통(체계), 층화(외부적 이질), 군집(계층내 이질)
확률분포
• 연속확률분포 == 확률밀도함수
・ 정규 분포(왜도0, 첨도3), 표준정규분포(표준0, 분산/표준편차 1)
・ t-분포, F-분포, 카이제곱분포, 균등분포, 감마분포, 베타분포, 지수분포
• 이산확률분포 == 확률질량함수
・ 이항분포 : n번의 시행중 P확률로 k번 성공할 확률
・ 포아송분포 : 단위 시간/면적당 확률 분포
・ 다항분포, 기하분포, 초기하분포
표본분포
• 큰 수 법칙(n이 커질수록 분산은 0), 중심극한정리(n이 커질수록 정규분포에 근사)

(4) 추론통계

점추정 조건
• 불편성(Unbiasedness) : 추정량의 기대값은 모집단의 모수와 차이가 없음
• 효율성 : 추정량의 분산이 작을수록 좋음
• 일치성 : 표본이 클수록 모수와 같아짐
• 충족성 : 추정량은 모수에 대한 모든 정보를 제공
구간추정
• 신뢰구간 : 표준편차/신뢰수준과 비례, 표본크기와 반비례
• 신뢰수준 : 추정값이 존재하는 구간에 모수가 포함될 확률
가설검정
• 가설의 종류
・ 귀무가설 : 기존과 비교해 변화/차이가 없음 = 기각되면 통계적으로 유의미
・ 대립가설(연구가설) : 표본을 통해 입증
• 가설 검정 : “P-값 < 유의수준”이면 귀무가설을 기각하고 대립가설을 채택
・ P-값 : 귀무가설이 참이라는 가정에 따라 검정 통계량이 나타날 가능성
・ 유의수준 : 기각/채택의 기준 = 일반적으로 5%
・ 검정방법 : 양측검정(같은지 여부), 단측검정(큰지/작은지 여부)
가설 검정 오류 = α 를 작은 값으로 고정시키고 검정력을 최대화 한다
• 1종 오류 : 귀무가설이 참인데 기각
・ 유의수준(α, 1종 오류를 범할 최대 허용확률), 신뢰수준(1-α)
• 2종 오류 : 귀무가설이 거짓인데 채택
・ 베타수준(β, 2종 오류를 범할 최대 허용확률), 검정력(1-β)

[출처] https://velog.io/@jhbale11/%EB%B9%85%EB%8D%B0%EC%9D%B4%ED%84%B0%EB%B6%84%EC%84%9D%EA%B8%B0%EC%82%AC-%ED%95%84%EA%B8%B0-%EC%A0%95%EB%A6%AC1

경축! 아무것도 안하여 에스천사게임즈가 새로운 모습으로 재오픈 하였습니다.
어린이용이며, 설치가 필요없는 브라우저 게임입니다.
https://s1004games.com

본 웹사이트는 광고를 포함하고 있습니다.
광고 클릭에서 발생하는 수익금은 모두 웹사이트 서버의 유지 및 관리, 그리고 기술 콘텐츠 향상을 위해 쓰여집니다.

서울대학교 융합과학기술대학원 (7).png [File Size:34.2KB/Download:7]

이 게시물을

번호	제목	글쓴이	날짜	조회 수
공지	오라클 기본 샘플 데이터베이스	졸리운_곰	2014.01.02	25085
공지	[SQL컨셉] 서적 "SQL컨셉"의 샘플 데이타 베이스 SAMPLE DATABASE of ORACLE	가을의 곰을...	2013.02.10	24564
공지	[G_SQL] Sample Database	가을의 곰을...	2012.05.20	25943
1005	[국가기술자격 빅데이터분석기사] 빅데이터 분석기사 정보 및 필기 시험 후기 분석 (기출 문제 정리)	졸리운_곰	2022.09.21	57
1004	[국가기술자격 빅데이터분석기사] `빅데이터분석기사` 자격증의 허상	졸리운_곰	2022.09.21	40
1003	[국가기술자격 빅데이터분석기사] 빅데이터 분석기사 요약 - 4과목. 빅데이터 결과 해석	졸리운_곰	2022.09.19	29
1002	[국가기술자격 빅데이터분석기사]빅데이터 분석기사 요약 - 3과목. 빅데이터 모델링	졸리운_곰	2022.09.19	41
1001	[국가기술자격 빅데이터분석기사]빅데이터 분석기사 요약 - 2과목. 빅데이터 탐색	졸리운_곰	2022.09.19	24
1000	[국가기술자격 빅데이터분석기사]빅데이터 분석기사 요약 - 1과목. 빅데이터 분석 기획	졸리운_곰	2022.09.19	50
999	[국가기술자격 빅데이터분석기사] [빅데이터분석기사 필기 요약] I.빅데이터 분석 기획 - 02. 데이터 분석 계획	졸리운_곰	2022.09.15	40
998	[국가기술자격 빅데이터분석기사][빅데이터분석기사 필기 요약] I.빅데이터 분석 기획 - 01. 빅데이터의 이해 (3)	졸리운_곰	2022.09.15	10
997	[국가기술자격 빅데이터분석기사][빅데이터분석기사 필기 요약] I.빅데이터 분석 기획 - 01. 빅데이터의 이해 (2)	졸리운_곰	2022.09.13	17
996	[국가기술자격 빅데이터분석기사] [빅데이터분석기사 필기 요약] I.빅데이터 분석 기획 - 01. 빅데이터의 이해 (1)	졸리운_곰	2022.09.13	29
995	[국가기술자격 빅데이터분석기사] [인공지능] 베이즈 정리 ( Bayes' theorem )	졸리운_곰	2022.09.04	21
994	[ 국가기술자격 빅데이터분석기사 ] 빅데이터와 베이즈 정리	졸리운_곰	2022.09.04	42
993	[tensorflow] [인공지능] TensorFlow GPU 동작 확인 방법	졸리운_곰	2022.09.04	51
»	[국가기술자격 빅데이터분석기사] 빅데이터분석기사 - 필기 정리1	졸리운_곰	2022.09.01	119
991	[국가기술자격 빅데이터분석기사] 빅데이터분석기사 노트정리 공유	졸리운_곰	2022.09.01	171
990	[국가기술자격 빅데이터분석기사] 빅데이터 분석기사 : 개요 및 특징	졸리운_곰	2022.09.01	60
989	[국가기술자격 빅데이터분석기사] 빅데이터 분석 기사 개요	졸리운_곰	2022.09.01	24
988	[tensorflow] TensorFlow 2.x 에서 1.x 코드 사용하기	졸리운_곰	2022.08.07	67
987	[tensorflow] 텐서플로 - TF 1.버전 vs 2.버전	졸리운_곰	2022.08.07	56
986	[Mysql] mysql에서 json 다루기	졸리운_곰	2022.08.02	52

첫 페이지 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 끝 페이지

쓰기

태그