- 전체
- Sample DB
- database modeling
- [표준 SQL] Standard SQL
- G-SQL
- 10-Min
- ORACLE
- MS SQLserver
- MySQL
- SQLite
- postgreSQL
- 데이터아키텍처전문가 - 국가공인자격
- 데이터 분석 전문가 [ADP]
- [국가공인] SQL 개발자/전문가
- NoSQL
- hadoop
- hadoop eco system
- big data (빅데이터)
- stat(통계) R 언어
- XML DB & XQuery
- spark
- DataBase Tool
- 데이터분석 & 데이터사이언스
- Engineer Quality Management
- [기계학습] machine learning
- 데이터 수집 및 전처리
- 국가기술자격 빅데이터분석기사
- 암호화폐 (비트코인, cryptocurrency, bitcoin)
데이터 수집 및 전처리 [데이터 수집 및 전처리] Crawling, Scraping
2022.05.21 10:24
[데이터 수집 및 전처리] Crawling, Scraping
1. Crawling
- crawler: spider, bots, web crawler 등 다양한 이름으로 불린다.
- Web indexing 을 목적으로 한다.
- 처음 URL 리스트에서 시작해서 하이퍼링크들을 찾고 fetching 한다
-
2. BeautifulSoup vs. Scrapy
BeautifulSoup: Parsing 목적 - Scrapy: 편하게 봇을 만들어주는 Framework
3. Scraping vs. Crawling
Scraping | Crawling |
---|---|
웹 포함 다양한 소스에서 데이터 추출 | 웹에서 페이지 다운로드 |
규모 관계 없음 | 주로 대규모 |
중복 제거 필수 아님 | 중복 제거 필수 |
crawl agent + parser 필요 | crawl agent 필요 |
4. Crawling + Scraping 아키텍처
- 바깥쪽이 Crawling
- 가운데 데이터로 저장하는 부분이 Scraping
[출처] https://ek-koh.github.io/data%20collection/crawling-scraping/
본 웹사이트는 광고를 포함하고 있습니다.
광고 클릭에서 발생하는 수익금은 모두 웹사이트 서버의 유지 및 관리, 그리고 기술 콘텐츠 향상을 위해 쓰여집니다.
광고 클릭에서 발생하는 수익금은 모두 웹사이트 서버의 유지 및 관리, 그리고 기술 콘텐츠 향상을 위해 쓰여집니다.
댓글 0
번호 | 제목 | 글쓴이 | 날짜 | 조회 수 |
---|---|---|---|---|
공지 | 오라클 기본 샘플 데이터베이스 | 졸리운_곰 | 2014.01.02 | 25085 |
공지 | [SQL컨셉] 서적 "SQL컨셉"의 샘플 데이타 베이스 SAMPLE DATABASE of ORACLE | 가을의 곰을... | 2013.02.10 | 24564 |
공지 | [G_SQL] Sample Database | 가을의 곰을... | 2012.05.20 | 25943 |