[엑셀로 웹 스크래핑2] Scrape webpage data using Excel & VBA

This post is going to get a bit technical- If you’re just looking for a quick tool to scrape data off pages and you’re not trying to set up the code yourself, I’d recommend this post: Search source code of any sites with Excel. You can just download the completed VBA file, and get some ideas about practical marketing applications of why you would want to scrape webpage data.

Considerations for coding a basic VBA script to scrape webpage data

In the past, I’ve highlighted one method of coding VBA to scrape webpage data by using Internet Explorer and making VBA calls. While IE is good for certain applications, if all you need is to scrape webpage source HTML code then oHTTP calls allow VBA to get through a lot more pages in a shorter amount of time, and generally encounter fewer errors.

If you’ve never coded VBA, I’d recommend looking at my introductory piece before diving into this particular code.

Writing the code

Since Excel will be the driving thing, generally the starting place is going to be some sort of list of URLs that you need to extract data from. The basic outline of what you will be coding is:

 

For each Cell in URL-List
  oHTTP Navigate to Cell.Value
  Open site source
  Perform some action with HTML file
  Output results of action in some way
Next

 

The actual code you’ll need to have the ability to scrape webpage data follows. First, you’ll need to define your variables and set your HTTP object.

 

Sub Site_Source_Scraper()
    Dim navtar As String
    Dim oHTTP As Object
    Dim page_html As String
    Dim cell As Range
    Set oHTTP = CreateObject("msxml2.ServerXMLHTTP")

 

In this first block of code, we are simply defining the variables and the objects we’ll need for the script. Navtar is the string that is the URL for the website we’ll be scraping data off of, oHTTP is HTTP object we’ll be using for most of our commands, page_html the string of the complete html file for the page, and of course cell is just the cell we are currently getting a URL from. Lastly, setting oHTTP as a Server XML object allows us to make URL calls with oHTTP.

The next section is the loop that does the actual scraping.

 

경축! 아무것도 안하여 에스천사게임즈가 새로운 모습으로 재오픈 하였습니다.
어린이용이며, 설치가 필요없는 브라우저 게임입니다.
https://s1004games.com

    For Each cell In Selection
        cell.Activate
        navtar = Replace(Replace(Replace(ActiveCell.Value, "https://", ""), "http://", ""), "www.", "") 'Clean URL
        navtar = "http://" & navtar
        On Error GoTo HTTPErr:
        oHTTP.Open "GET", navtar, False
        oHTTP.send
        page_html = (oHTTP.responseText)
        'put all the awesome code here!
LoopPickup:
    Next
Exit Sub

 

The whole block of code is incased in a for-loop that will lookup the webpages for all the cells selected when the script is executed. The first thing that happens inside of the loop is cleaning the URL. The URL will have to be of the form http://URLHERE.COM (or .net, .org, etc.). If there is a www. in front of the URL it will cause an error. The Replace( command is there to basically pull out all the extraneous info from the URL. Then, in the next line, “http://” is added to the beginning of the URL.

To avoid errors from crashing the script, the On Error right before the .Open command will push any problems to the error handler (see below). The actual “get this data” happens next. The .Open command takes the form OBJECT.Open “GET”, theURL, False to navigate to a page; after that a .Send will execute the command. The result is the variable “page_html”. The variable is a giant string of the entire HTML of the webpage. If you’re looking for ideas of things to do with this, see my post on why a marketer would be searching through HTML..

Lastly, the error handler must be built.

 

HTTPErr:
    If Err.Number <> 0 Then
        ActiveCell.Offset(0, 1).Value = "Error: " & Err.Description
    End If
    Resume LoopPickup:
End Sub

 

When you put those 3 parts together you’ll have a VBA script that can let you search through a massive list of sites instantly, scraping webpage data for whatever you might need. Leave comments below about what you used this for!

Complete VBA code:

 

Sub Site_Source_Scraper()
    Dim navtar As String
    Dim oHTTP As Object
    Dim page_html As String
    Dim cell As Range
    Set oHTTP = CreateObject("msxml2.ServerXMLHTTP")
    
    For Each cell In Selection
        cell.Activate
        navtar = Replace(Replace(Replace(ActiveCell.Value, "https://", ""), "http://", ""), "www.", "") 'Clean URL
        navtar = "http://" & navtar
        On Error GoTo HTTPErr:
        oHTTP.Open "GET", navtar, False
        oHTTP.send
        page_html = (oHTTP.responseText)
        'put all the awesome code here!
LoopPickup:
    Next
Exit Sub

HTTPErr:
    If Err.Number <> 0 Then
        ActiveCell.Offset(0, 1).Value = "Error: " & Err.Description
    End If
    Resume LoopPickup:
End Sub

 

[출처] http://tipsformarketers.com/scrape-webpage-data-using-excel-vba/

본 웹사이트는 광고를 포함하고 있습니다.
광고 클릭에서 발생하는 수익금은 모두 웹사이트 서버의 유지 및 관리, 그리고 기술 콘텐츠 향상을 위해 쓰여집니다.
번호 제목 글쓴이 날짜 조회 수
1220 [一日30分 인생승리의 학습법] Qiskit 시작하기 (Getting Started with Qiskit) file 졸리운_곰 2025.06.03 16
1219 [一日30分 인생승리의 학습법] 양자컴퓨팅 프로그래밍 file 졸리운_곰 2025.06.03 12
1218 [一日30分 인생승리의 학습법] [Git] 다중 리모트를 사용하여 여러 Git 연동하기(Gitea, GitHub) file 졸리운_곰 2025.05.25 7
1217 [一日30分 인생승리의 학습법] [GitHub][terminal] 비밀번호 인증 에러를 토큰으로 해결하고 로그인 하기 file 졸리운_곰 2025.05.24 20
1216 [一日30分 인생승리의 학습법] [알아봅시다] 블록체인 게임들의 가능성과 미래 file 졸리운_곰 2025.04.08 29
1215 이 어지러운시대의 극복법 만화보기 file unmask 2025.04.08 55
1214 [ 一日30分 인생승리의 학습법] IT 국비교육, 쓰레기 속에서 그나마 덜 쓰레기인 곳 찾는 팁 file 졸리운_곰 2025.03.08 22
1213 [ 一日30分 인생승리의 학습법] 소프트웨어 개발하다보면 "connection reset" 등, 소프트웨어 버그 적인 문제가아닌 하드웨어나 네트워크 오류 메시지의 예 file 졸리운_곰 2025.03.01 22
1212 [ 一日30分 인생승리의 학습법] 기술부채(Technical Debt)는 소프트웨어 개발이나 프로젝트 과정에서, 약속된 것과 실제로 제공된 것 사이에 차이가 발생하는 것을 의미합니다. file 졸리운_곰 2025.01.23 32
1211 [ 一日30分 인생승리의 학습법] 고가용성(High Availability) 시스템을 위한 5가지 전략 file 졸리운_곰 2024.12.28 34
1210 [ 一日30分 인생승리의 학습법] 켈리 공식을 간단히 투자해 적용해 보자 - 켈리 크라이티리언과 확률적 사고의 중요성 file 졸리운_곰 2024.12.26 36
1209 [ 一日30分 인생승리의 학습법] [markdown] mermaid를 이용해서 UML 그리기 - 플로우차트 file 졸리운_곰 2024.12.01 50
1208 [ 一日30分 인생승리의 학습법] Mermaid.js 정리???????? file 졸리운_곰 2024.12.01 69
1207 [ 一日30分 인생승리의 학습법] Mermaid를 이용한 시퀀스 다이어그램 file 졸리운_곰 2024.12.01 34
1206 [ 一日30分 인생승리의 학습법] Mermaid - 코드로 순서도(flowchart) 그리기 file 졸리운_곰 2024.12.01 30
1205 [ 一日30分 인생승리의 학습법] 유니코드 그래픽 기호(심벌) Huge List of Unicode Symbols 졸리운_곰 2024.07.31 48
1204 [ 一日30分 인생승리의 학습법] PocketBase Attempt to simplify the serve command for prod : 포켓베이스 프로덕션 포트 도메인 네임 설정 졸리운_곰 2024.06.10 73
1203 [ 一日30分 인생승리의 학습법] google spreadsheet app script 로 코인 현황 : 거래소 API 접근할 때 알아두면 좋은 함수 file 졸리운_곰 2024.06.08 62
1202 [ 一日30分 인생승리의 학습법] 매크로 프로그램 정리 졸리운_곰 2024.06.08 90
1201 [ 一日30分 인생승리의 학습법] 스마트스토어 vs 아임웹 vs 카페24 file 졸리운_곰 2024.05.16 79
대표 김성준 주소 : 경기 용인 분당수지 U타워 등록번호 : 142-07-27414
통신판매업 신고 : 제2012-용인수지-0185호 출판업 신고 : 수지구청 제 123호 개인정보보호최고책임자 : 김성준 sjkim70@stechstar.com
대표전화 : 010-4589-2193 [fax] 02-6280-1294 COPYRIGHT(C) stechstar.com ALL RIGHTS RESERVED