- 전체
- Sample DB
- database modeling
- [표준 SQL] Standard SQL
- G-SQL
- 10-Min
- ORACLE
- MS SQLserver
- MySQL
- SQLite
- postgreSQL
- 데이터아키텍처전문가 - 국가공인자격
- 데이터 분석 전문가 [ADP]
- [국가공인] SQL 개발자/전문가
- NoSQL
- hadoop
- hadoop eco system
- big data (빅데이터)
- stat(통계) R 언어
- XML DB & XQuery
- spark
- DataBase Tool
- 데이터분석 & 데이터사이언스
- Engineer Quality Management
- [기계학습] machine learning
- 데이터 수집 및 전처리
- 국가기술자격 빅데이터분석기사
- 암호화폐 (비트코인, cryptocurrency, bitcoin)
국가기술자격 빅데이터분석기사 [국가기술자격 빅데이터분석기사] 빅데이터분석기사 - 필기 정리1
2022.09.01 20:46
[국가기술자격 빅데이터분석기사] 빅데이터분석기사 - 필기 정리1
1장 : 빅데이터 기획
1. 빅데이터 이해
(1) 데이터 정의
- DIKW 피라미드
데이터(Data)(가공전)→정보(Information)(가공)→지식(Knowledge)(구조화+고유아이디어)→지혜(Wisdom)(지식축적+창의적) - 지식 형태 : 표출화(암묵지→형식지), 연결화(형식지→형식지), 내면화(형식지→암묵지), 공통화(암묵지→암묵지)
(2) 빅데이터
- 특징 : 5V = 3V(Volume, Variety, Velocity) + Veracity(신뢰성), Value(가치)
- 활용 변화 : 사전→사후처리, 표본→전수조사, 질→양, 인과→상관관계
- 위기요인 : 노출→사생활 침해, 예측→책임원칙 훼손, 오분석→데이터 오용
(3) 데이터 사이언스 = IT기술 + 비즈니스분석(컨설팅) + 분석(통계/머신러닝
- 데이터사이언티스트 : Hard Skill(빅데이터, 분석), Soft Skill(통찰, 의사전달, 협력)
- 조직구조 : 집중(전담 부서), 기능(부서 배치), 분산(현업 직접배치 + 전담조직)
(4) 빅데이터와 인공지능 : 인공지능 > 머신러닝(컴퓨터) > 딥러닝(자율적)
(5) 빅데이터 플랫폼 : 하둡 에코시스템
- 수집 : Kafka, Flume(로그), Zookeeper
- 분석 : Hive, Pig
- 실시간 질의 : Impala
- 분산DB : HBase, Cassandra
- 분산저장 : HDFS
- 리소스관리 : YARN
- 데이터전송 : Scoop
(6) 개인정보 법/제도
- 데이터 3법 : 개인정보보호법, 정보통신망법, 신용정보법
- 빅데이터 개인정보보호 가이드라인
- 개인정보 비식별 조치 가이드라인 : 사전검토→비식별조치→적정성평가→사후관리
(7) 사후관리
- 비식별화
・ 가명 : 휴리스틱, K익명화, 암호화, 교환
・ 마스킹 : 임의 잡음 추가, 공백, 대체
・ 범주화 : 범주화(은폐화/감추기), 제어라운딩, 랜덤라운딩, 범위화
・ 삭제 : 식별자, 부분, 레코드 삭제
・ 총계 : 총합, 부분합, 라운딩, 재배열 - 적정성평가 : K-익명성, l-다양성(동질성, 배경지식 대응), t-근접성(쏠림 대응)
- 마이 데이터 : 투명/신뢰/통제/가치 관점 정보주체가 개인정보를 직접 관리하는 운동
= 핵심은 개인정보 전송요구권
2. 데이터 분석 계획
(1) 분석문제정의
- 하향식(정의된 문제 해결) : 비즈니스 모델, 외부 참조모델, 분석 유스케이스 활용
- 상향식(문제 정의 어려움) : 데이터 기반 문제 정의 후 해결 탐색
- 디자인사고(Design Thinking) : 상향식 문제 도출, 하향식 해결 과정을 반복
(2) 분석문제 해결방안
- 분석대상 Known : 분석방법 Known(최적화), 분석방법 Unknown(솔루션)
- 분석대상 UnKnown : 분석방법 Known(통찰), 분석방법 Unknown(발견)
(3) 분석방법론
- KDD(5) : 데이터선택→전처리→변환→데이터마이닝→해석/평가
- CRISP-DM(6) : 업무이해→데이터이해→데이터준비→모델링→평가→전개
3. 데이터 수집 및 저장 계획
(1) 데이터 유형
- 구조 : 정형, 비정형, 반정형(구조형태, HTML/XML)
- 저장형태 : 파일(로그, 텍스트), DB, 콘텐츠(텍스트, 오디오, 비디오), 스트림
(2) 데이터 속성
- 범주형 : 명목형, 순서형 ☞ 명목척도, 등간척도(순서무관), 서열측도
- 수치형 : 이산형, 연속형(구간) ☞ 비율척도(절대 영점 존재, 키/무게/수량/길이)
(3) 데이터 수집 기술
- 정형 : ETL, FTP, Open API
- 비정형 : Crawling, RSS, FTP, Open API, 웹크롤링 Scrapy, Kafka
- 반정형 : Sensing, Streaming, Scribe, Flume, Chukwa
(4) 데이터 처리 기술
- 필터링 : 오류탐색, 보정, 중복/삭제 확인
- 변환 : 평활화(노이즈 구간화/군집화), 집계, 일반화(스케일링), 정규화, 속성생성
- 정제, 통합, 축소
(5) 데이터 저장 플랫폼
- DW : 주제 + 직접분석
- 데이터레이크 : 원천 + 분석 솔루션 필요
2장 : 빅데이터 탐색
1. 데이터 전처리
(1) 정제(Cleansing)
- 노이즈 : 입력되지 않았는데 입력되었다고 잘못 판단한 값
- 결측값(N/A, Blank) : 필수적인 데이터가 입력되지 않고 누락된 값
• 결측값 유형
・ 완전 무작위결측(MCAR) : 결과에 영향 X, 다른변수 연관 X
・ 무작위결측(MAR) : 결과에 영향 X, 다른변수 연관 O
・ 비 무작위결측(NMAR) : 결과에 영향 O, 다른변수 연관 O
• 결측값 처리 : 삭제, 단순 대치, 다중 대치(단순 대치 여러번)
・ 단순 대치 유형
= 완전분석 : 불완전 무시, 관측된 자료만 사용
= 평균대치 : 중위수/최빈값, 다른 변수와 관계 있는 경우
= 단순확률대치 : 핫덱(응답값으로 무응답 대체), 콜드덱(외부/다른 출처), 혼합 - 이상값(Outlier)
• 검출
・ 통계지표 : ESD(표준편차3), 기하평균(표준편차2.5), 사분위수(3사-1사분위*1.5)
・ 시각화 : 히스토그램, 시계열, 밀도차트(값별 밀도), 박스(1~3분위 기준)
・ 군집분석 : 비지도 학습
・ 마할라노비스거리 : 관측치가 평균에서 벗어난 정도
・ LOF : 관측치와 주변 밀도의 상대적인 비교
・ iForest : 의사결정트리
• 이상값 처리 : 삭제(극단값 절단), 대체(결측값 처리와 동일)
(2) 분석변수 처리
- 변수(Feature) : 독립변수(x, 원인/예측), 종속변수(y, 반응/결과), 파생변수(분해/결합)
- 변수 선택
• 필터 : 통계적 상관관계를 탐색
• 래퍼(하위 집합 반복 선택) : 전진선택, 후진제거, 단계적(병행)
= 래퍼기법의 변수 선택 품질은 회귀모형으로 분석
= 회귀모형적합도: F-값(클수록), 결정계수 R2(1 근접), 의사결정계수 AIC(작을수록)
• 임베디드 : 모델에 변수 선택이 포함 ☞ 라쏘, 릿지, 엘라스틱넷
(3) 파생변수 생성
- 로그/지수변환 : 치우친 변수의 기울기를 감소 시킴
- 비닝(Binning) : 연속형 → 범주형으로 변환 위해 몇 개의 Bin으로 분할하여 계산
- 더비 변수화 : 범주형 → 연속형으로 변환 위해 값이 있으면 1, 없으면 0
- 스케일링 : 최소/최대 정규화, Z-스코어 정규화
(4) 차원축소
- 차원 : 변수(Feature)의 수, 차원이 커지면 다중공선성 발생
• 다중공선성 : 독립변수들 간의 강한 상관관계, 모델의 정확도/신뢰도 저하 초래 - 차원 축소 : 다른 분석 전단계, 분석 수행 후 개선, 시각화에 사용
• 주성분분석(PCA) : 여러 차원을 행렬분해를 이용 선형결합
• (선형)판별분석(LDA) : 연속형 본수의 선형조합(판별함수)으로 집단 구분 예측
=> 판별함수 수 = min(범주-1, 독립변수)
• 요인분석(Factor Analysis) : 관찰 불가 변수 존재 시 공통 요인을 찾아 요약
=> 유형 : 확인적(연역적), 귀납적(탐색적) 분석
• 다차원척도법(MDS) : 유사성 기반 내재 구조 집단화하고 상대적 위치로 시각화
=> 적합도 좋으면 스트레스는 0에 근접
• 독립성분분석(ICA) : 다변량의 신호를 통계적으로 독립적인 하부성분으로 분리
• 특이값 분해(SVD) : 행렬분해(M X N 행렬데이터)를 적용하여 특이값 추출
(5) 불균형 데이터 처리 : 딥러닝에서는 과대표집 적용
- 과소표집(Under Sampling): 다수 클래스 데이터 일부 선택 ☞ 정상 데이터 손실 위험
- 과대표집(Over Sampling) : 소수 클래스 데이터 무작위 복제 ☞ 중복 값 발생 위험
- SMOKE : 과대표집의 일종, 알고리즘을 통해 소수 클래스에 새로운 데이터 생성
2. 데이터 탐색
(1) EDA(탐색적데이터분석) : 범주형(중심성/변동성 파악), 수치형(정규성 파악)
- 특징
• 저항성(결측, 이상치에 영향 적게 받는 성질), 잔차(주 경향에서 벗어난 정도), 자료 재표현(적당한 척도로 변환), 현시성(시각화) - 기초통계량
• 중심 경향 : 평균(산술평균, 기하평균(제곱), 조화평균(역수)), 중위수, 최빈값
• 산포 : 범위, 분산, 표준편차, 변동계수(상대표준편차), 사분위수
• 분포 : 왜도, 첨도
=> 왼쪽 긴 꼬리(왜도<0), 오른쪽 긴 꼬리(왜도>0), 평평(첨도<0), 뾰족(첨도>0) - 상관관계 : 산점도, 상관계수(1에 가까울수록) = 공분산(관계방향 O, 강도 X)
• 상관계수 유형 : 피어슨(수치형), 카이제곱 검정(범주형), 스피어만(순서형) - 시각화 : 히스토그램(연속형), 막대그래프(범주형), 박스플롯, 산점도
(2) 고급 데이터 탐색
- 시공간 데이터(점/선/면) : 코로플레스지도, 카토그램(지도 면적 왜곡), 버블플롯맵
- 다변량 데이터 : 상관분석(산점도행렬이용), 주성분분석, 선형판별분석, 다차원척도법
- 비정형 데이터 탐색
(3) 기술통계
- 데이터 요약 : 기초통계량, 상관관계 분석
- 표본추출 : 단순무작위, 계통(체계), 층화(외부적 이질), 군집(계층내 이질)
- 확률분포
• 연속확률분포 == 확률밀도함수
・ 정규 분포(왜도0, 첨도3), 표준정규분포(표준0, 분산/표준편차 1)
・ t-분포, F-분포, 카이제곱분포, 균등분포, 감마분포, 베타분포, 지수분포
• 이산확률분포 == 확률질량함수
・ 이항분포 : n번의 시행중 P확률로 k번 성공할 확률
・ 포아송분포 : 단위 시간/면적당 확률 분포
・ 다항분포, 기하분포, 초기하분포 - 표본분포
• 큰 수 법칙(n이 커질수록 분산은 0), 중심극한정리(n이 커질수록 정규분포에 근사)
(4) 추론통계
- 점추정 조건
• 불편성(Unbiasedness) : 추정량의 기대값은 모집단의 모수와 차이가 없음
• 효율성 : 추정량의 분산이 작을수록 좋음
• 일치성 : 표본이 클수록 모수와 같아짐
• 충족성 : 추정량은 모수에 대한 모든 정보를 제공 - 구간추정
• 신뢰구간 : 표준편차/신뢰수준과 비례, 표본크기와 반비례
• 신뢰수준 : 추정값이 존재하는 구간에 모수가 포함될 확률 - 가설검정
• 가설의 종류
・ 귀무가설 : 기존과 비교해 변화/차이가 없음 = 기각되면 통계적으로 유의미
・ 대립가설(연구가설) : 표본을 통해 입증
• 가설 검정 : “P-값 < 유의수준”이면 귀무가설을 기각하고 대립가설을 채택
・ P-값 : 귀무가설이 참이라는 가정에 따라 검정 통계량이 나타날 가능성
・ 유의수준 : 기각/채택의 기준 = 일반적으로 5%
・ 검정방법 : 양측검정(같은지 여부), 단측검정(큰지/작은지 여부) - 가설 검정 오류 = α 를 작은 값으로 고정시키고 검정력을 최대화 한다
• 1종 오류 : 귀무가설이 참인데 기각
・ 유의수준(α, 1종 오류를 범할 최대 허용확률), 신뢰수준(1-α)
• 2종 오류 : 귀무가설이 거짓인데 채택
・ 베타수준(β, 2종 오류를 범할 최대 허용확률), 검정력(1-β)
[출처] https://velog.io/@jhbale11/%EB%B9%85%EB%8D%B0%EC%9D%B4%ED%84%B0%EB%B6%84%EC%84%9D%EA%B8%B0%EC%82%AC-%ED%95%84%EA%B8%B0-%EC%A0%95%EB%A6%AC1
본 웹사이트는 광고를 포함하고 있습니다.
광고 클릭에서 발생하는 수익금은 모두 웹사이트 서버의 유지 및 관리, 그리고 기술 콘텐츠 향상을 위해 쓰여집니다.
광고 클릭에서 발생하는 수익금은 모두 웹사이트 서버의 유지 및 관리, 그리고 기술 콘텐츠 향상을 위해 쓰여집니다.