[국가기술자격 빅데이터분석기사] 빅데이터 분석기사 요약 - 4과목. 빅데이터 결과 해석 

 

SPARK

- 범용 분산처리 플랫폼, 맵리듀스, 스톰과 동일한 스트리밍 처리, SQL 기반의 쿼리 수행

- 하둡과 연동, 파이썬, 자바 등 다양한 언어 지원

- Driver, Workers, Cluster manager(YARN)으로 이루어짐

- RDD Operation : Transformation(데이터를 변경하여 새로운 RDD 생성), Action

STORM

- 분산처리 플랫폼, Nimbus, Supervisors, Zookeeper, 작업노드로 구성

- Nimbus : 작업 노드에 있는 슈퍼바이저에게 작업 분배. 사용 가능한 슈퍼바이저의 현황 파악 및 관리

- Zookeeper : 노드 간 통신 및 작업 진행 상태 관리. 클러스터의 설정과 상태 관리. 님버스와 슈퍼바이저에게 작업 상황 및 클러스터 상태 정보 제공

- Supervisors : 작업 노드의 데몬. 님버스에서 할당받은 작업 수행

- Storm 네트워크 구조의 구성요소 : Spout(데이터 소스를 처리하는 시작 노드의 역할, 입력 데이터를 볼트로 전달), Bolt(스파우트에서 전달받은 데이터 처리, 수행 결과를 복수의 노드에 전달)

데이터의 효율적인 검증 절차

- 데이터 품질관리 요소 검증 -> 데이터 무결성 검증 -> 데이터 비식별화 조치

Fluentd

- 데이터 수집 소프트웨어, 반 또는 비정형 데이터셋 수집

- 로그 수집을 해야 하는 서버에 설치. 서버에서 로그 수집 및 중앙 로그 저장소로 전송

HDFS

- 일반적으로 클러스터에 2개의 네임 노드 구축

- 네임 서버는 파일의 메타 정보 보관

- 클라이언트로부터 특정 파일에 요구가 발생한 경우 파일을 보관하는 블록들에 대한 정보를 통해 실제 데이터 제공

- 데이터 접근은 데이터 노드를 통해 이루어짐. 파일은 블록으로 나누어 데이터 노드에 저장.

- 데이터 블록 관리 : Name node , 데이터 블록 저장 : Data Node

HIVE

- 하둡 상에 구축된 정형화된 데이터 관리 시스템. HDFS를 스토리지로 사용

- 테이블은 HDFS의 실제 디렉토리로 관리. 실제 데이터는 파일로 관리

- Metastore : 테이블 정보 저장, 데이터는 HDFS에 저장

- HCatalog : HIVE에서 생성한 테이블이나 데이터 모델을 피그나 맵리듀스에서 이용. 하둡으로 생성한 데이터를 위한 테이블 및 스토리지 관리 서비스

정형 데이터의 품질관리 요소

- 정확성(연 매출액은 월 매출액의 합과 일치), 완전성(not null), 일관성(코드값은 코드테이블에 정의), 유일성(고객의 이메일 주소는 유일해야 함), 유효성(주민번호 형식)

비정형 데이터의 품질관리 요소

- 기능성(자막, 사운드 내용), 신뢰성(결함 발생 횟수), 사용성(선명한 영상과 자막), 효율성(기준 시간 내 동영상 로딩), 이식성(운영 환경 및 플레이어 호환 여부)

데이터 수집 오픈소스

- Flume, Scribe, Chukwa

경축! 아무것도 안하여 에스천사게임즈가 새로운 모습으로 재오픈 하였습니다.
어린이용이며, 설치가 필요없는 브라우저 게임입니다.
https://s1004games.com

데이터 분석 플랫폼

- S4, Storm

데이터 할당 분석 수행 오픈소스

- Hadoop, Hive, Pig, Mahout

군집관리 및 모니터링 오픈소스

- Zookeeper, Cloumon, Hue

군집화 알고리즘

- 병합적 또는 상향식 군집, 분할식 또는 하향식 군집

비계층적 군집

- k-means, k-medoids, DBSCAN, 자기조직화지도, Fuzzy

확률기반 군집

- Gauss 혼합 모형

Holdout Cross Validation

- 데이터 집합을 서로 겹치지 않는 훈련집합과 시험집합으로 무작위 구분

- 훈련집합을 Training, Validation으로 구분하기도 함

ROC 곡선

- 혼동행렬의 값에서 FP와 TP 사이의 관계를 표현.

- 목표변수 범주 값 분류 시 긍정과 부정 범주의 변화 판단. 기준값의 변화에 따른 참긍정과 거짓긍정 비율 변화 분석

Lift(향상도)

- 무작위로 선택한 경우보다 데이터마이닝을 통해 예측력이 높아진 비율

- 1보다 작으면 우수한 규칙으로 평가

- P(X and Y) / (P(X) * P(Y))

Support(지지도)

- 전체 거래 중에서 어떠한 항목이 포함되었는가에 대한 거래 빈도

- P(X and Y) / n

Confidence(신뢰도)

- X규칙이 발생하면 Y규칙이 발생할 확률이 높다고 말할 수 있는 비율

- count(X, Y) / count(X)

출처: https://ndlessrain.tistory.com/entry/빅데이터-분석기사-4과목-빅데이터-결과-해석?category=364680 [ndlessrain:티스토리]

 

 

 

본 웹사이트는 광고를 포함하고 있습니다.
광고 클릭에서 발생하는 수익금은 모두 웹사이트 서버의 유지 및 관리, 그리고 기술 콘텐츠 향상을 위해 쓰여집니다.
번호 제목 글쓴이 날짜 조회 수
공지 오라클 기본 샘플 데이터베이스 졸리운_곰 2014.01.02 25085
공지 [SQL컨셉] 서적 "SQL컨셉"의 샘플 데이타 베이스 SAMPLE DATABASE of ORACLE 가을의 곰을... 2013.02.10 24564
공지 [G_SQL] Sample Database 가을의 곰을... 2012.05.20 25943
1005 [국가기술자격 빅데이터분석기사] 빅데이터 분석기사 정보 및 필기 시험 후기 분석 (기출 문제 정리) file 졸리운_곰 2022.09.21 57
1004 [국가기술자격 빅데이터분석기사] `빅데이터분석기사` 자격증의 허상 졸리운_곰 2022.09.21 40
» [국가기술자격 빅데이터분석기사] 빅데이터 분석기사 요약 - 4과목. 빅데이터 결과 해석 졸리운_곰 2022.09.19 29
1002 [국가기술자격 빅데이터분석기사]빅데이터 분석기사 요약 - 3과목. 빅데이터 모델링 file 졸리운_곰 2022.09.19 41
1001 [국가기술자격 빅데이터분석기사]빅데이터 분석기사 요약 - 2과목. 빅데이터 탐색 file 졸리운_곰 2022.09.19 24
1000 [국가기술자격 빅데이터분석기사]빅데이터 분석기사 요약 - 1과목. 빅데이터 분석 기획 졸리운_곰 2022.09.19 50
999 [국가기술자격 빅데이터분석기사] [빅데이터분석기사 필기 요약] I.빅데이터 분석 기획 - 02. 데이터 분석 계획 file 졸리운_곰 2022.09.15 40
998 [국가기술자격 빅데이터분석기사][빅데이터분석기사 필기 요약] I.빅데이터 분석 기획 - 01. 빅데이터의 이해 (3) 졸리운_곰 2022.09.15 10
997 [국가기술자격 빅데이터분석기사][빅데이터분석기사 필기 요약] I.빅데이터 분석 기획 - 01. 빅데이터의 이해 (2) file 졸리운_곰 2022.09.13 17
996 [국가기술자격 빅데이터분석기사] [빅데이터분석기사 필기 요약] I.빅데이터 분석 기획 - 01. 빅데이터의 이해 (1) 졸리운_곰 2022.09.13 29
995 [국가기술자격 빅데이터분석기사] [인공지능] 베이즈 정리 ( Bayes' theorem ) file 졸리운_곰 2022.09.04 21
994 [ 국가기술자격 빅데이터분석기사 ] 빅데이터와 베이즈 정리 file 졸리운_곰 2022.09.04 42
993 [tensorflow] [인공지능] TensorFlow GPU 동작 확인 방법 file 졸리운_곰 2022.09.04 51
992 [국가기술자격 빅데이터분석기사] 빅데이터분석기사 - 필기 정리1 file 졸리운_곰 2022.09.01 119
991 [국가기술자격 빅데이터분석기사] 빅데이터분석기사 노트정리 공유 file 졸리운_곰 2022.09.01 171
990 [국가기술자격 빅데이터분석기사] 빅데이터 분석기사 : 개요 및 특징 file 졸리운_곰 2022.09.01 60
989 [국가기술자격 빅데이터분석기사] 빅데이터 분석 기사 개요 file 졸리운_곰 2022.09.01 24
988 [tensorflow] TensorFlow 2.x 에서 1.x 코드 사용하기 졸리운_곰 2022.08.07 67
987 [tensorflow] 텐서플로 - TF 1.*버전 vs 2.*버전 file 졸리운_곰 2022.08.07 56
986 [Mysql] mysql에서 json 다루기 file 졸리운_곰 2022.08.02 52
대표 김성준 주소 : 경기 용인 분당수지 U타워 등록번호 : 142-07-27414
통신판매업 신고 : 제2012-용인수지-0185호 출판업 신고 : 수지구청 제 123호 개인정보보호최고책임자 : 김성준 sjkim70@stechstar.com
대표전화 : 010-4589-2193 [fax] 02-6280-1294 COPYRIGHT(C) stechstar.com ALL RIGHTS RESERVED