[1日30分 인생승리의 학습법] 검색에서 정보를 구성하는 방법

 

웹 크롤러는 사용자가 검색하기 전에 수 천 억 개에 달하는 웹페이지에서 정보를 모아 이를 검색 색인에 정리합니다.

검색의 기본

크롤링 프로세스는 이전의 크롤링 작업을 통해 수집한 웹 주소 목록과 웹사이트 소유자가 제공한 사이트맵에서부터 시작됩니다. 크롤러는 웹사이트를 방문한 다음 사이트에 있는 링크를 사용하여 다른 페이지를 찾습니다. 또한 크롤러 소프트웨어는 새로운 사이트, 기존 사이트의 변경사항, 깨진 링크를 주의 깊게 살핍니다. 크롤링할 사이트, 크롤링 횟수 및 각 사이트에서 가져올 페이지 수는 컴퓨터 프로그램에서 결정됩니다.

Google에서는 사이트 소유자가 Google에서 사이트를 크롤링하는 방법을 세밀하게 설정할 수 있도록 Search Console을 제공합니다. 사이트 소유자는 페이지 크롤링 처리 방식을 상세하게 설정하는 것은 물론 재크롤링을 요청하거나 'robots.txt'라는 파일을 사용하여 페이지가 아예 크롤링되지 않도록 할 수도 있습니다. Google은 비용을 받고 특정 사이트를 더 자주 크롤링하지 않습니다. 사용자에게 최고의 검색결과를 제공하기 위해 모든 웹사이트에 동일한 도구를 제공합니다.

크롤링으로 정보 찾기

웹은 끊임없이 커지는 도서관과 같습니다. 수 십 억 권에 달하는 책을 보관하고 있지만 중앙집중식 저장 시스템이 갖춰져 있지 않은 상태에 비유할 수 있습니다. Google은 웹 크롤러라는 소프트웨어를 사용하여 공개된 웹페이지를 발견합니다. 사람들이 웹에서 콘텐츠를 탐색할 때와 비슷하게, 크롤러는 웹페이지를 살펴보고 해당 웹페이지에 있는 링크를 따라갑니다. 이 크롤러는 여러 링크를 넘나들며 이러한 웹페이지에 관한 데이터를 Google 서버로 가져옵니다.

색인 생성을 통한 정보 구성

크롤러가 웹페이지를 찾으면 Google 시스템에서는 브라우저와 마찬가지로 해당 페이지의 콘텐츠를 렌더링합니다. 이때 키워드 및 웹사이트 최신 정보에 이르는 주요 신호를 기록하며 검색 색인에서 모든 주요 신호를 추적합니다.

Google 검색 색인은 수 십 억 개의 웹페이지를 포함하고 있으며 크기는 100,000,000 기가바이트가 넘습니다. Google 검색의 색인은 책 뒤에 있는 색인과 같아서, Google에서 색인을 생성하는 모든 웹페이지에서 발견한 모든 단어에 관한 항목이 포함되어 있습니다. 웹페이지 색인이 생성되면 웹페이지에 포함된 모든 단어의 색인 항목에 웹페이지를 추가합니다.

경축! 아무것도 안하여 에스천사게임즈가 새로운 모습으로 재오픈 하였습니다.
어린이용이며, 설치가 필요없는 브라우저 게임입니다.
https://s1004games.com

 

 

Google은 단순 키워드 매칭을 넘어 지식 그래프를 기반으로 사용자가 관심을 두는 인물, 장소, 사물을 더 잘 이해하기 위해 계속 노력합니다. 이를 위해 Google은 웹페이지 정보 뿐만 아니라 다른 유형의 정보도 체계화하고 있습니다. Google 검색을 사용하면 주요 도서관에서 소장하고 있는 수 백 만 권의 책에서 텍스트를 검색하거나 내가 거주하고 있는 지역의 현지 대중교통 기관에서 이동 시간을 찾아볼 수 있으며 세계은행과 같이 공개된 출처에서 데이터를 탐색할 수도 있습니다.

[출처] https://www.google.com/intl/ko/search/howsearchworks/crawling-indexing/

 

 

 

본 웹사이트는 광고를 포함하고 있습니다.
광고 클릭에서 발생하는 수익금은 모두 웹사이트 서버의 유지 및 관리, 그리고 기술 콘텐츠 향상을 위해 쓰여집니다.
번호 제목 글쓴이 날짜 조회 수
1115 [ 一日30分 인생승리의 학습법] 2023 네이버 다이어리 굿노트 템플릿으로 심플하게 새해 계획 file 졸리운_곰 2023.01.07 15
1114 [ 一日30分 인생승리의 학습법] 프로그래밍 스킴 Scheme 1 다운로드부터 문법 대부분을 314초만에 알려줄게요 졸리운_곰 2023.01.05 5
1113 [ 一日30分 인생승리의 학습법] ROBOCOPY(로보카피) 사용법 file 졸리운_곰 2023.01.05 10
1112 [ 一日30分 인생승리의 학습법] PHP, VBA and SQL Useful Scripts PHP, VBA 및 SQL 유용한 스크립트 file 졸리운_곰 2023.01.01 7
1111 [ 一日30分 인생승리의 학습법] KoELECTRA로 기계독해(MRC) API 개발 file 졸리운_곰 2023.01.01 7
1110 [ 一日30分 인생승리의 학습법] 일 안 해도 생기는 수입? 그런 ‘패시브 인컴’은 없다 file 졸리운_곰 2023.01.01 6
1109 [ 一日30分 인생승리의 학습법] Qemu를 이용한 가상화 기초 file 졸리운_곰 2022.12.31 5
1108 [ 一日30分 인생승리의 학습법] 파이토치로 딥러닝해야 하는 5가지 이유 졸리운_곰 2022.12.31 6
1107 [ 一日30分 인생승리의 학습법] 왜 ‘한국어’의 자연어처리(NLP)는 유독 어려울까? file 졸리운_곰 2022.12.31 10
1106 [ 一日30分 인생승리의 학습법] MinIO Windows Service 등록 졸리운_곰 2022.12.24 7
1105 [ 一日30分 인생승리의 학습법] Apache 2.2에서 2.4로 마이그레이션 시 발생하는 에러 및 해결책 정리 졸리운_곰 2022.12.18 6
1104 [ 一日30分 인생승리의 학습법] Git 사용 방법 정리(commit, push, pull request, merge 등) 졸리운_곰 2022.12.04 18
1103 [ 一日30分 인생승리의 학습법] [웹 기획] 화면 설계 용어 - 와이어프레임, 스토리보드, 프로토타입의 차이점 file 졸리운_곰 2022.12.03 6
1102 [ 一日30分 인생승리의 학습법] REST API 설계 (네이밍) 졸리운_곰 2022.11.26 24
1101 [ 一日30分 인생승리의 학습법] REST API URI 규칙 졸리운_곰 2022.11.26 12
1100 [ 一日30分 인생승리의 학습법 ] REST API URL 규칙 졸리운_곰 2022.11.26 9
1099 [ 一日30分 인생승리의 학습법 ] prolog 문법 : Prolog Syntax 졸리운_곰 2022.11.21 3
1098 [ 一日30分 인생승리의 학습법 ] noVNC 작동원리 file 졸리운_곰 2022.11.16 8
1097 [ 一日30分 인생승리의 학습법 ] 프로젝트 만들고 GitHub에 첫 Commit하고 Push하기 file 졸리운_곰 2022.11.15 4
1096 [ 一日30分 인생승리의 학습법 ] 우분투(리눅스) 에서 EBS 라디오 자동녹음 만들기 졸리운_곰 2022.11.11 9
대표 김성준 주소 : 경기 용인 분당수지 U타워 등록번호 : 142-07-27414
통신판매업 신고 : 제2012-용인수지-0185호 출판업 신고 : 수지구청 제 123호 개인정보보호최고책임자 : 김성준 sjkim70@stechstar.com
대표전화 : 010-4589-2193 [fax] 02-6280-1294 COPYRIGHT(C) stechstar.com ALL RIGHTS RESERVED