JSoup를 이용한 HTML 파싱

Jsoup은 BeautifulSoup라고 하는 Python 라이브러리와 비슷한 Java에서 사용할 수 있는 HTML 파싱 라이브러리이다.

다른 HTML 파싱 라이브러리보다 사용하기가 편한 것이 장점이다.

 

라이브러리는 http://jsoup.org/download 에서 다운로드 할 수 있으며, 2015년 2월 16일 기준 최신 버전은 1.8.1이다. 

맨 위의 core library를 다운로드하면 된다.

 

Java 프로젝트에서 라이브러리를 추가하고, 소스에 다음을 import한다.

기본적인 사용 방법은 다음과 같다.

1
2
3
4
5
6
7
8
9
10
11
    12
import org.jsoup.Jsoup; //import Jsoup
import org.jsoup.nodes.Document; //import Jsoup
import org.jsoup.select.Elements; //import Jsoup
 
try {
      Document doc = Jsoup.connect("http://slg1119.tistory.com/").get(); //웹에서 내용을 가져온다.
      Elements contents = doc.select("div.tt_article_useless_p_margin"); //내용 중에서 원하는 부분을 가져온다.
      String text = contents.text(); //원하는 부분은 Elements형태로 되어 있으므로 이를 String 형태로 바꾸어 준다.
      System.out.println(text);
} catch (IOException e) { //Jsoup의 connect 부분에서 IOException 오류가 날 수 있으므로 사용한다.  
      e.printStackTrace();
}

 

그렇다면, 내용 중에 한 가지만 가져오고 싶다면 어떻게 해야 할까?

두 가지의 방법이 있다.

우선 첫 번째는 Elements 형이 아닌 단일 형태인 Element를 사용하는 방법이다.

1
2
3
4
5
6
7
8
9
10
11
12
13
import org.jsoup.Jsoup; //import Jsoup
import org.jsoup.nodes.Document;  //import Jsoup
import org.jsoup.select.Elements;  //import Jsoup
import org.jsoup.nodes.Element; //import Jsoup
 
try {
      Document doc = Jsoup.connect("http://slg1119.tistory.com/").get(); //웹에서 내용을 가져온다.
      Element contents = doc.select("div.tt_article_useless_p_margin").first(); //내용 중에서 첫 번째 부분만 가져온다.
      String text = contents.text(); //String 형태로 바꾸어 준다.
      System.out.println(text);
} catch (IOException e) { //Jsoup의 connect 부분에서 IOException 오류가 날 수 있으므로 사용한다.
      e.printStackTrace();
}

를 사용한다.

 

하지만 위 방법은 맨 첫번째 내용만 받아올 수 있으므로, 맨 첫번째 내용이 아닌 중간의 내용을 받아오려면,

1
2
3
4
5
6
7
8
9
10
11
12
   13
import org.jsoup.Jsoup; //import Jsoup
import org.jsoup.nodes.Document;  //import Jsoup
import org.jsoup.select.Elements;  //import Jsoup
import org.jsoup.nodes.Element; //import Jsoup
 
try {
      Document doc = Jsoup.connect("http://slg1119.tistory.com/").get(); //웹에서 내용을 가져온다.
      Elements contents = doc.select("div.tt_article_useless_p_margin:eq(N)"); //내용 중에서 N번째 부분만 가져온다.
      String text = contents.text(); //String 형태로 바꾸어 준다.
      System.out.println(text);
} catch (IOException e) { //Jsoup의 connect 부분에서 IOException 오류가 날 수 있으므로 사용한다.
      e.printStackTrace();
}

을 사용한다. 

 

뒤의 :eq(N) 은 같은 이름의 클래스가 있을 때 몇 번째 클래스를 받아올 지 선택할 수 있으며, 0부터 시작한다.

이것을 while문이나 for문과 같은 loop문과 응용하면 한 부분이 아닌 여러 부분의 내용을 조합하여 사용할 수도 있지만, 여기서는 다루지 않도록 한다.

 

텍스트가 아닌 HTML의 속성(예: href, title 등)을 가져오고 싶을때는 어떻게 해야할까?

예를 들어 HTML 속성이 다음과 같다고 하자.

경축! 아무것도 안하여 에스천사게임즈가 새로운 모습으로 재오픈 하였습니다.
어린이용이며, 설치가 필요없는 브라우저 게임입니다.
https://s1004games.com

1
<a href="href1" title="Title1">Title</a>

이 중에서 href를 가져오고 싶다면, 다음과 같이 사용하면 된다.

1
2
3
4
5
6
7
8
9
10
11
12
   13
import org.jsoup.Jsoup; //import Jsoup
import org.jsoup.nodes.Document;  //import Jsoup
import org.jsoup.select.Elements;  //import Jsoup
import org.jsoup.nodes.Element; //import Jsoup
 
try {
      Document doc = Jsoup.connect("http://slg1119.tistory.com/").get(); //웹에서 내용을 가져온다.
      Elements contents = doc.select("div.tt_article_useless_p_margin"); //내용을 가져온다.
      String text = contents.attr("href"); //attr은 기본적으로 String형이다. 
      System.out.println(text);
} catch (IOException e) { //Jsoup의 connect 부분에서 IOException 오류가 날 수 있으므로 사용한다.
      e.printStackTrace();
}

그러면 결과값은 herf1이 나올 것 이다.

 

아, 그리고 text() 와 toString()은 서로 다르다.

예를 들어 HTML 속성이 다음과 같다고 하자.

1
<a href="href1" title="Title1">Title</a>

결과값을 보면 알겠지만, text()는 <>과 </> 사이에 있는 사용자가 보이는 텍스트만 가져오는 데 반해,

toString()은 가져온 전체 값을 출력한다.

text()의 결과값 : Title

toString()의 결과값 : <a href="href1" title="Title1">Title</a>

 

참고: select 쉽게 하는 방법

Google Chrome으로 파싱하기 원하는 페이지에 들어간 후 Ctrl+Shift+C 를 동시에 누르면 아랫쪽에 창이 하나 뜰 것이다.

창이 뜬 후 자신이 원하는 부분을 마우스로 클릭하면 아래쪽의 클래스가 펼쳐지고, 맨 아랫부분에 자신이 클릭한 클래스 이름이 쭉 나와있다.

파란 색으로 처리된 부분만 사용해도 문제가 없을 수는 있겠지만, 안정성을 위해 앞의 3가지 정도의 상위 클래스도 사용하여 쓰도록 하자.

1
2
3
4
5
6
7
8
9
10
11
12
   13
import org.jsoup.Jsoup; //import Jsoup
import org.jsoup.nodes.Document;  //import Jsoup
import org.jsoup.select.Elements;  //import Jsoup
import org.jsoup.nodes.Element; //import Jsoup
 
try {
      Document doc = Jsoup.connect("http://slg1119.tistory.com/").get(); //웹에서 내용을 가져온다.
      Elements contents = doc.select("tr td div div.line.number5.index4.alt2"); //내용을 가져온다.
      String text = contents.attr("href"); //attr은 기본적으로 String형이다. 
      System.out.println(text);
} catch (IOException e) { //Jsoup의 connect 부분에서 IOException 오류가 날 수 있으므로 사용한다.
      e.printStackTrace();
}
이런 식으로 사용하면 된다.

 

 

 

 

이 글은 정동윤이 작성한 글입니다.

 

[출처] http://slg1119.tistory.com/category/Java

본 웹사이트는 광고를 포함하고 있습니다.
광고 클릭에서 발생하는 수익금은 모두 웹사이트 서버의 유지 및 관리, 그리고 기술 콘텐츠 향상을 위해 쓰여집니다.
번호 제목 글쓴이 날짜 조회 수
204 스프링(Spring) 프레임워크 기본 개념 강좌 (6) - Dynamic Proxy 졸리운_곰 2017.10.02 71
203 스프링(Spring) 프레임워크 기본 개념 강좌 (5) - AOP Proxy file 졸리운_곰 2017.10.02 158
202 스프링(Spring) 프레임워크 기본 개념 강좌 (4) - AOP file 졸리운_곰 2017.10.02 109
201 스프링(Spring) 프레임워크 기본 개념 강좌 (3) - IoC file 졸리운_곰 2017.10.02 114
200 스프링(Spring) 프레임워크 기본 개념 강좌 (2) - 주요 구성 요소 & DI file 졸리운_곰 2017.10.02 107
199 스프링(Spring) 프레임워크 기본 개념 강좌 (1) - 스프링 이해하기 file 졸리운_곰 2017.10.02 290
198 Spring - IoC & DI file 졸리운_곰 2017.10.02 64
197 WebDAV 구현을 위한 환경 설정 file 졸리운_곰 2017.09.24 74
196 [subclipse] svn에서 무시할 파일 설정하기 svn:ignore property 설정 file 졸리운_곰 2017.09.24 145
195 다섯개의 탑 자바로 머신러닝 라이브러리 Top 5 machine learning libraries for Java file 졸리운_곰 2017.08.22 161
194 이진 파일, 이진 모드로 열어서 읽기 예제 소스 졸리운_곰 2017.05.20 135
193 Converting C# code in JAVA / datatype problem 졸리운_곰 2017.05.20 219
192 DwgFile.java - Joinup 졸리운_곰 2017.04.27 729
191 자바에서 C# 호출하기 file 졸리운_곰 2017.04.26 236
190 java4autocad Java for Autocad file 졸리운_곰 2017.04.26 257
189 Comparison between C# and Java - DiVA.pdf file 졸리운_곰 2017.04.25 682
188 [Java] Apache Commons HttpClient로 SSL 통신하기 졸리운_곰 2017.03.27 545
187 jsoup 사용하기 졸리운_곰 2017.03.27 116
186 Java Annotation: 인터페이스 강요로부터 자유를… file 졸리운_곰 2017.03.20 77
» JSoup를 이용한 HTML 파싱 졸리운_곰 2017.03.04 100
대표 김성준 주소 : 경기 용인 분당수지 U타워 등록번호 : 142-07-27414
통신판매업 신고 : 제2012-용인수지-0185호 출판업 신고 : 수지구청 제 123호 개인정보보호최고책임자 : 김성준 sjkim70@stechstar.com
대표전화 : 010-4589-2193 [fax] 02-6280-1294 COPYRIGHT(C) stechstar.com ALL RIGHTS RESERVED