[데이터 수집 및 전처리] Crawling, Scraping

1. Crawling

  • crawler: spider, bots, web crawler 등 다양한 이름으로 불린다.
  • Web indexing 을 목적으로 한다.
  • 처음 URL 리스트에서 시작해서 하이퍼링크들을 찾고 fetching 한다

Permalink

  • 2. BeautifulSoup vs. Scrapy

    BeautifulSoup: Parsing 목적
  • Scrapy: 편하게 봇을 만들어주는 Framework

3. Scraping vs. Crawling

Scraping Crawling
웹 포함 다양한 소스에서 데이터 추출 웹에서 페이지 다운로드
규모 관계 없음 주로 대규모
중복 제거 필수 아님 중복 제거 필수
crawl agent + parser 필요 crawl agent 필요

n

4. Crawling + Scraping 아키텍처

k

image

  • 바깥쪽이 Crawling
  • 가운데 데이터로 저장하는 부분이 Scraping

 

[출처] https://ek-koh.github.io/data%20collection/crawling-scraping/

경축! 아무것도 안하여 에스천사게임즈가 새로운 모습으로 재오픈 하였습니다.
어린이용이며, 설치가 필요없는 브라우저 게임입니다.
https://s1004games.com

 

 

본 웹사이트는 광고를 포함하고 있습니다.
광고 클릭에서 발생하는 수익금은 모두 웹사이트 서버의 유지 및 관리, 그리고 기술 콘텐츠 향상을 위해 쓰여집니다.
번호 제목 글쓴이 날짜 조회 수
공지 오라클 기본 샘플 데이터베이스 졸리운_곰 2014.01.02 25085
공지 [SQL컨셉] 서적 "SQL컨셉"의 샘플 데이타 베이스 SAMPLE DATABASE of ORACLE 가을의 곰을... 2013.02.10 24564
공지 [G_SQL] Sample Database 가을의 곰을... 2012.05.20 25943
985 [MySQL] MySQL 에서 JSON Data사용하기 졸리운_곰 2022.08.02 88
» [데이터 수집 및 전처리] Crawling, Scraping file 졸리운_곰 2022.05.21 31
983 [데이터베이스 모델링] DAsP - 물리 데이터 모델링 [논리-물리 모델 변환] file 졸리운_곰 2022.05.07 72
982 [데이터베이스 모델링] 관계형 데이터 모델링 하향식과 상향식 졸리운_곰 2022.05.07 83
981 [기본 SQL] SELECT, INSERT, UPDATE, DELETE file 졸리운_곰 2022.04.26 92
980 [데이터베이스 모델링] 모델링 IE 표기법 (까치발, 까마귀발, crow-feet) file 졸리운_곰 2022.04.26 498
979 [stat(통계) R 언어] 유명하고 많이 사용하는 R 패키지 정리 졸리운_곰 2022.04.19 60
978 [빅데이터분석기사 실기] 빅데이터분석기사 3회 실기 문제 복원 (기출) + 시험공부 팁 file 졸리운_곰 2022.02.07 88
977 [빅데이터분석기사] 빅데이터분석기사 노트정리 공유 file 졸리운_곰 2022.02.07 1516
976 [SQL 데이터분석 학습][오라클][Oracle] 도커로 Oracle 간단 설치하기 file 졸리운_곰 2022.02.06 25
975 [빅데이터분석기사] 실기 : 시험 후기, [자격증] 빅데이터분석기사 실기 합격 후기 (비전공자 문과) file 졸리운_곰 2022.02.04 138
974 [R 데이터 분석] anaconda에서 R 사용하기 file 졸리운_곰 2022.01.16 70
973 [R 데이터 분석] Using C/C++ in R , R언어에서 C/C++ 사용하기 졸리운_곰 2021.11.21 54
972 암호화폐 (비트코인, cryptocurrency, bitcoin) [Ethereum] Remix 를 이용하여 이더리움 솔리디티(Solidity) 개발 연습 하기! file 졸리운_곰 2021.10.19 27
971 암호화폐 (비트코인, cryptocurrency, bitcoin) [Ethereum] Remix IDE를 이용한 Solidity 프로그래밍 file 졸리운_곰 2021.10.17 29
970 [오라클][Oracle] ORA-00904: 부적합한 식별자 졸리운_곰 2021.10.13 32
969 [오라클][Oracle] 대소문자 구분 없이 검색하는 경우에 WHERE 조건 file 졸리운_곰 2021.10.13 84
968 [오라클, Oracle] 오라클 비밀번호 만료(Oracle password has expired) file 졸리운_곰 2021.10.10 18
967 암호화폐 (비트코인, cryptocurrency, bitcoin) [Ethereum] 스마트 컨트렉트로 "Hello, World"를 출력하자.​ file 졸리운_곰 2021.10.09 45
966 [데이터분석][데이터수집 전처리] MS 엑셀(Excel)에서 UTF-8 로 된 csv 파일 가져오기 file 졸리운_곰 2021.09.30 124
대표 김성준 주소 : 경기 용인 분당수지 U타워 등록번호 : 142-07-27414
통신판매업 신고 : 제2012-용인수지-0185호 출판업 신고 : 수지구청 제 123호 개인정보보호최고책임자 : 김성준 sjkim70@stechstar.com
대표전화 : 010-4589-2193 [fax] 02-6280-1294 COPYRIGHT(C) stechstar.com ALL RIGHTS RESERVED