[국가기술자격 빅데이터분석기사][빅데이터분석기사 필기 요약] I.빅데이터 분석 기획 - 01. 빅데이터의 이해 (2) 

 

빅데이터분석기사 필기 요약

???? 빅데이터 플랫폼/ 하둡 에코시스템/ R/ 우지/ 플럼/ HBase/ 스쿱/ 맵리듀스/ 얀/ 스파크/ HDFS/

       척와/ 스크라이브/ 히호/ 피그/ 하이브/ 머하웃/ 임팔라/ 주키퍼

 

 

I. 빅데이터 분석 기획

   01. 빅데이터의 이해

      1. 빅데이터 개요 및 활용

      2. 빅데이터 기술 및 제도

      



 

2. 빅데이터 기술 및 제도

 

[1] 빅데이터 플랫폼

 

(1) 빅데이터 플랫폼의 개념 | 빅데이터에서 가치를 추출하기 위해 일련의 과정을 규격화한 기술

  • 여기서 일련의 과정은: 수집 → 저장 → 처리 → 분석 → 시각화
  • 의료, 환경, 범죄, 자동차 등 특화된 분석을 지원하는 플랫폼이 발전 추세

 

 

(2) 빅데이터 플랫폼 구성요소 | 데이터 수집 → 저장 → 분석 → 활용

  • 수집: ETL(Extract Transform Load), 크롤러(Crawler), EAI(Enterprise Architecture Integration) 등
  • 저장: RDBMS(Relational DBMS, 관계형 데이터베이스), NoSQL(Not Only SQL) 등
  • 분석: 텍스트 마이닝, 머신러닝, 통계, 데이터 마이닝, SNS 분석, 예측 분석 등
  • 활용: 데이터 가시화, 비즈니스 인텔리전스(BI), Open API 연계, 히스토그램, 인포그래픽 등

 

(︶^︶)NoSQL이란, 전통적인 RDBMS와 다른 DBMS를 지칭하기 위한 용어를 말한다.
                   (고정된 테이블 스키마 X 조인 연산 X 수평적 확장 O)

 

 

(3) 빅데이터 플랫폼 데이터 형식

  • HTML: 웹페이지 만들 때 사용/ 텍스트, 태그, 스크립트로 구성
  • XML: 다목적 마크업 언어/ 데이터 표현을 위해 태그 사용
  • CSV: 필드를 쉼표로 구분한 텍스트 데이터, 텍스트 파일
  • JSON: Key-Value로 이루어진 데이터 오브젝트를 전달하기 위해, 텍스트를 사용하는 개방형 표준 포맷

 

경축! 아무것도 안하여 에스천사게임즈가 새로운 모습으로 재오픈 하였습니다.
어린이용이며, 설치가 필요없는 브라우저 게임입니다.
https://s1004games.com


 

(4) 빅데이터 플랫폼 구축 소프트웨어 | R/ 우지/ 플럼/ HBase/ 스쿱

  • R: 빅데이터 분석
    - S언어를 기반으로 만들어짐/ 강력한 시각화 기능
    - r-project.org: R is a free software environment for statistical computing and graphics


     
  • 우지(Oozie): 워크플로우 관리
    - 하둡 작업(job) 관리/ 워크플로우 및 코디네이터 시스템/ 스케줄링 및 모니터링
    - oozie.apache.org: Oozie is a workflow scheduler system to manage Apache Hadoop jobs.
    - 우지가 대체 뭔 뜻인가 했더니 버마어로 코끼리 운전자를 의미한다고..


     
  • 플럼(Flume): 데이터 수집
    - Event, Agent 활용/ 대량 로그데이터를 수집, 집계, 이동
    - 여러 서버에서 생산된 대용량 로그 데이터를 수집하여 원격 목적지에 데이터를 전송하는 기능!
    - flume.apache.org: service for collecting, aggregating, and moving large amounts of log data.
    - 플럼은 개방형수로, 벌목된 통나무(log)를 운반하는 수로를 의미한다고..! 오지는 작명


     
  • HBase: 분산 데이터베이스
    - 컬럼 기반 저장소/ HDFS, 인터페이스 제공
    - 큰 테이블에 대한 빠른 조회 가능/ HDFS 위에 구축되어, HDFS에 있는 데이터에 랜덤 엑세스 및 읽기
    - hbase.apache.org: Hadoop database. Random, realtime read/write access to bigdata.


     
  • 스쿱(Sqoop): 정형 데이터 수집
    - SQL to Hadoop/ SQL ↔ HDFS/ Connector를 사용
    - 동작 2가지 import(SQL → HDFS), export(HDFS → SQL)
    - sqoop.apache.org: tool designed for transferring bulk data between Hadoop and structured datastores.

 


 

(5) 분산 컴퓨팅 환경 소프트웨어 구성요소 | 맵리듀스/ 얀/ 스파크/ HDFS/ 하둡
 

  • 맵리듀스(Map Reduce): 맵 → 셔플 → 리듀스 순서대로 데이터 처리
    - 맵: Key-Value로 데이터 취합 (입력된 데이터를 가공하여 Key-Value 쌍으로 변환)
    - 셔플: 데이터 통합 처리
    - 리듀스: 맵 처리된 데이터 정리 (Key를 기준으로 결과물을 모아서 집계)
    - 대용량 데이터를 위한 분산 병렬 처리 소프트웨어 프레임워크


     
  • 얀(YARN): 자원 관리 플랫폼/ Master(리소스매니저)-Slave(노드매니저)
    - 리소스 매니저: 스케줄러/ 클러스터 이용률 최적화 수행
    - 노드 매니저: 노드 내 자원 관리/ 리소스 매니저에 보고
    - 애플리케이션 마스터: 자원 교섭/ 컨테이너 실행
    - 컨테이너: 프로그램 구동을 위한 격리 환경 지원


     
  • 아파치 스파크(Apache Spark): 대규모 데이터 분산처리시스템
    - 실시간 데이터 처리 (스트리밍 데이터, 온라인 머신러닝 등)
    - 저장이 아니라 데이터 프로세싱하는 역할!


     
  • 하둡 분산 파일 시스템(HDFS): 대용량 파일을 분산된 서버에 저장, 처리/ Master(네임노드)-Slave(데이터노드)
    - 네임 노드: 속성 기록 (파일 이름, 권한 등)/ 메타 데이터 관리/ 데이터 노드 모니터링
    - 데이터 노드: 데이터 저장/ 일정한 크기로 나눈 블럭 형태로 저장함


     
  • 아파치 하둡(Apache Hadoop): HDFS, 맵리듀스를 중심으로 하둡 에코시스템을 가진다.
    - 클라우드 플랫폼 상에서 클러스터를 구성하여 데이터 분석

 


 

(5) 하둡 에코시스템 (Hadoop Ecosystem) | 수집, 저장, 처리 기술 / 가공, 분석, 관리 기술

 

  • 수집, 저장, 처리 기술
    • 비정형 데이터 수집: 척와/ 플럼/ 스크라이브
      - 척와 (Chukwa): 분산된 서버에서 에이전트 실행 → 컬렉터가 데이터 받아서 HDFS 저장
      - 플럼 (Flume): 대량 로그데이터 수집, 집계, 이동/ 이벤트, 에이전트를 활용하는 기술
      - 스크라이브 (Scribe): 대용량 실시간 스트리밍 로그 데이터 수집 기술

       
    • 정형 데이터 수집: 스쿱/ 히호
      - 스쿱 (Sqoop): 대용량 데이터 전송 솔루션/ 커넥터를 사용하여 RDBMS ↔ HDFS
      - 히호 (Hiho): 대용량 데이터 전송 솔루션/ 깃허브에 공개되어 있음

       
    • 분산 데이터 저장: HDFS
      - HDFS: 대용량 파일을 분산된 서버에 저장, 저장된 데이터를 빠르게 처리할 수 있게 하는 시스템
        범용 하드웨어, 서버 기반/ 데이터 접근 패턴을 스트리밍 방식으로 지원/ 자동복구

       
    • 분산 데이터 처리: 맵리듀스
    • 분산 데이터베이스: HBase

 

 

  • 데이터 가공, 분석, 관리를 위한 주요 기술
    • 데이터 가공: 피그/ 하이브
      - 피그 (Pig): 대용량 데이터 집합을 분석하기 위한 플랫폼/ 맵리듀스 API 매우 단순화/ SQL과 유사한 형태
      - 하이브 (Hive): 하둡 기반 DW 솔루션/ SQL과 유사한 HiveQL 쿼리 제공

       
    • 데이터마이닝: 머하웃
      - 머하웃 (Mahout): 하둡 기반 데이터 마이닝 알고리즘을 구현한 오픈 소스 (분류, 클러스터링, 추천 및 협업 필터링 등)
        확장성을 가진 머신러닝용 라이브러리 (mahout.apache.org) (머하웃은 코끼리 조련사를 뜻한다고 한당..)

       
    • 실시간 SQL 질의: 임팔라
      - 임팔라 (Impala): 하둡 기반 실시간 SQL 질의 시스템/ 인터페이스로 HiveQL 사용/ 수초 내에 결과 확인 가능
        오픈소스 대규모 병렬 처리 SQL 쿼리 엔진(impala.apache.org)

       
    • 워크플로우 관리: 우지
      - 우지 (Oozie): 하둡 잡 관리용 워크플로우 및 코디네이터 시스템/ 자바 웹 애플리케이션 서버

       
    • 분산 코디네이션: 주키퍼
      - 주키퍼 (Zookeeper): 분산 환경에서 서버 간 상호조정이 필요한 다양한 서비스를 제공하는 시스템
        한 서버에만 서비스가 분산되지 않도록 분산, 한 서버에서 처리한 결과를 다른 서버들과 동기화
        (zookeeper.apache.org)

 

(︶^︶)데이터 웨어하우스(DW; Data Warehouse)란,  데이터를 공통 형식으로 변환하여 관리하는 데이터베이스
                    사용자 의사결정에 도움을 주기 위해, 기간시스템의 DB에 축적된 데이터를

                    효율적으로 분석 가능한 형태로 변환해놓은 저장소

 


 

 

 

 

참고 도서: 빅데이터분석기사 필기_수제비 2021

출처: https://sy-log.tistory.com/4?category=992358 [서윤로그:티스토리]

 

 

 

본 웹사이트는 광고를 포함하고 있습니다.
광고 클릭에서 발생하는 수익금은 모두 웹사이트 서버의 유지 및 관리, 그리고 기술 콘텐츠 향상을 위해 쓰여집니다.
번호 제목 글쓴이 날짜 조회 수
공지 오라클 기본 샘플 데이터베이스 졸리운_곰 2014.01.02 25084
공지 [SQL컨셉] 서적 "SQL컨셉"의 샘플 데이타 베이스 SAMPLE DATABASE of ORACLE 가을의 곰을... 2013.02.10 24563
공지 [G_SQL] Sample Database 가을의 곰을... 2012.05.20 25942
1002 [국가기술자격 빅데이터분석기사]빅데이터 분석기사 요약 - 3과목. 빅데이터 모델링 file 졸리운_곰 2022.09.19 41
1001 [국가기술자격 빅데이터분석기사]빅데이터 분석기사 요약 - 2과목. 빅데이터 탐색 file 졸리운_곰 2022.09.19 24
1000 [국가기술자격 빅데이터분석기사]빅데이터 분석기사 요약 - 1과목. 빅데이터 분석 기획 졸리운_곰 2022.09.19 50
999 [국가기술자격 빅데이터분석기사] [빅데이터분석기사 필기 요약] I.빅데이터 분석 기획 - 02. 데이터 분석 계획 file 졸리운_곰 2022.09.15 40
998 [국가기술자격 빅데이터분석기사][빅데이터분석기사 필기 요약] I.빅데이터 분석 기획 - 01. 빅데이터의 이해 (3) 졸리운_곰 2022.09.15 10
» [국가기술자격 빅데이터분석기사][빅데이터분석기사 필기 요약] I.빅데이터 분석 기획 - 01. 빅데이터의 이해 (2) file 졸리운_곰 2022.09.13 17
996 [국가기술자격 빅데이터분석기사] [빅데이터분석기사 필기 요약] I.빅데이터 분석 기획 - 01. 빅데이터의 이해 (1) 졸리운_곰 2022.09.13 29
995 [국가기술자격 빅데이터분석기사] [인공지능] 베이즈 정리 ( Bayes' theorem ) file 졸리운_곰 2022.09.04 21
994 [ 국가기술자격 빅데이터분석기사 ] 빅데이터와 베이즈 정리 file 졸리운_곰 2022.09.04 42
993 [tensorflow] [인공지능] TensorFlow GPU 동작 확인 방법 file 졸리운_곰 2022.09.04 51
992 [국가기술자격 빅데이터분석기사] 빅데이터분석기사 - 필기 정리1 file 졸리운_곰 2022.09.01 119
991 [국가기술자격 빅데이터분석기사] 빅데이터분석기사 노트정리 공유 file 졸리운_곰 2022.09.01 171
990 [국가기술자격 빅데이터분석기사] 빅데이터 분석기사 : 개요 및 특징 file 졸리운_곰 2022.09.01 60
989 [국가기술자격 빅데이터분석기사] 빅데이터 분석 기사 개요 file 졸리운_곰 2022.09.01 24
988 [tensorflow] TensorFlow 2.x 에서 1.x 코드 사용하기 졸리운_곰 2022.08.07 67
987 [tensorflow] 텐서플로 - TF 1.*버전 vs 2.*버전 file 졸리운_곰 2022.08.07 56
986 [Mysql] mysql에서 json 다루기 file 졸리운_곰 2022.08.02 52
985 [MySQL] MySQL 에서 JSON Data사용하기 졸리운_곰 2022.08.02 88
984 [데이터 수집 및 전처리] Crawling, Scraping file 졸리운_곰 2022.05.21 31
983 [데이터베이스 모델링] DAsP - 물리 데이터 모델링 [논리-물리 모델 변환] file 졸리운_곰 2022.05.07 71
대표 김성준 주소 : 경기 용인 분당수지 U타워 등록번호 : 142-07-27414
통신판매업 신고 : 제2012-용인수지-0185호 출판업 신고 : 수지구청 제 123호 개인정보보호최고책임자 : 김성준 sjkim70@stechstar.com
대표전화 : 010-4589-2193 [fax] 02-6280-1294 COPYRIGHT(C) stechstar.com ALL RIGHTS RESERVED