[python 인터넷] [Python] Selenium 사용하기 (+PhantomJS)

Selenium은 웹앱을 테스트 하는데 주로 사용하는 프레임워크입니다. webdriver API를 통해 브라우저를 제어하게 할 수 있습니다. JavaScript를 이용해 비동기적으로 컨텐츠를 호출할 수 있으므로 브라우저에서 보이는 컨텐츠라면 전부 가져올 수 있다는 것을 의미합니다. 한마디로 Selenium은 실제 웹 브라우저가 동작하기 때문에 JS로 렌더링이 완료된 후의 DOM 결과물에 대한 접근이 가능합니다.

설치

파이썬

브라우저의 업데이트 마다 새로운 드라이버를 잡기 때문에 최신버전을 유지하는 것이 좋습니다.

pip3 install selenium

webdriver

아래에서는 chrome을 설치하여 사용합니다.

https://sites.google.com/a/chromium.org/chromedriver/downloads 에서 가장 최신인 드라이버 버전을 선택한 후, OS에 맞는 드라이버를 다운받습니다. 

 

 

설치 받은 압축파일을 해제하면 chromedriver 파일이 나오는데 해당 파일을 향후 사용하기 쉬운 장소로 변경합니다.

PhantomJS webdriver

PhantomJS는 화면이 존재하지 않은 브라우저입니다. CLI서버 환경에서 테스트를 진행할 예정이면 PhantomJS를 사용하는 것이 좋습니다. PhantomJS에 대한 설명은 https://brownbears.tistory.com/363 에서 확인할 수 있습니다.

http://phantomjs.org/download.html 에서 현재 OS 환경에 맞는 압축파일을 받은 후 압축을 풀어줍니다. 향후 사용할 파일의 위치는 bin폴더의 phantomjs 파일 입니다.

현재 PhantomJS는 개발이 진행되고 있지 않기 때문에 현재 브라우저가 최신이라면 크롬의 headless 모드를 사용하는 것이 좋습니다.

사용하기

아래와 같이 위에서 설치한 파일 위치를 입력합니다.

from selenium import webdriver


chrome_driver = webdriver.Chrome('chromedriver 파일 위치')
phantom_driver = webdriver.phantomjs('phantomjs 파일 위치')

 

selenium은 실행하기 위한 자원들이 전부 로드될 때까지 기다려 줍니다. 만약 이 시간을 지정하고 싶다면 implicitly_wait(초) 를 작성합니다. 아래는 implicitly_wait()을 사용하고 https://naver.com을 호출하는 예제입니다.

from selenium import webdriver


chrome_driver = webdriver.Chrome('/Users/user/Documents/chromedriver')

# 로드를 위해 5초 대기
chrome_driver.implicitly_wait(5)

chrome_driver.get('https://naver.com')

 

경축! 아무것도 안하여 에스천사게임즈가 새로운 모습으로 재오픈 하였습니다.
어린이용이며, 설치가 필요없는 브라우저 게임입니다.
https://s1004games.com

만약 정상적으로 호출이 되었다면 새로운 chrome 브라우저에 네이버가 떠 있는 것을 볼 수 있습니다.

예시

위 https://naver.com에서 로그인을 시도해 봅니다.

  1. 먼저 네이버의 로그인 화면 url인 https://nid.naver.com/nidlogin.login 를 입력합니다.
  2. 네이버 로그인의 화면에서 아이디 입력 태그의 id명은 id, 비밀번호 입력태그의 id명은 pw로 되어 있으므로 아래처럼 해당 태그에 값을 세팅합니다.
  3. 로그인 버튼을 클릭합니다.
from selenium import webdriver


chrome_driver = webdriver.Chrome('/Users/user/Documents/chromedriver')

# 로드를 위해 5초 대기
chrome_driver.implicitly_wait(5)

# 네이버 로그인페이지
chrome_driver.get('https://nid.naver.com/nidlogin.login')

# 아이디 비밀번호 입력
chrome_driver.find_element_by_id('id').send_keys('naver')
chrome_driver.find_element_by_id('pw').send_keys('naver')

# 로그인 버튼 클릭
chrome_driver.find_element_by_xpath('//*[@id="frmNIDLogin"]/fieldset/input').click()

 

계정정보가 올바르다면 정상적으로 로그인이 되는 것을 확인할 수 있습니다.

 

로그인이 필요한 페이지의 경우 로그인을 한 다음, 호출하고자 하는 페이지를 다시 불러와 사용할 수 있습니다. 아래는 로그인 후, BeautifulSoup을 함께 사용한 예시입니다.

from selenium import webdriver
from bs4 import BeautifulSoup


chrome_driver = webdriver.Chrome('/Users/user/Documents/chromedriver')

# 로드를 위해 5초 대기
chrome_driver.implicitly_wait(5)

# 네이버 로그인페이지
chrome_driver.get('https://nid.naver.com/nidlogin.login')

# 아이디 비밀번호 입력
chrome_driver.find_element_by_id('id').send_keys('id')
chrome_driver.find_element_by_id('pw').send_keys('password')

# 로그인 버튼 클릭
chrome_driver.find_element_by_xpath('//*[@id="frmNIDLogin"]/fieldset/input').click()


# 네이버 내정보
chrome_driver.get('https://nid.naver.com/user2/help/myInfo.nhn')
# html 로드
html = chrome_driver.page_source
bs = BeautifulSoup(html, 'html.parser')
notices = bs.find_all('div', class_='form')

 

 

테스트를 진행할 때, 네이버는 적절하지 않을 수 있습니다. 그놈의 자동입력방지문자

 

[출처] https://brownbears.tistory.com/424

 

 

 

 

본 웹사이트는 광고를 포함하고 있습니다.
광고 클릭에서 발생하는 수익금은 모두 웹사이트 서버의 유지 및 관리, 그리고 기술 콘텐츠 향상을 위해 쓰여집니다.
번호 제목 글쓴이 날짜 조회 수
391 [python 인터넷][네이버 뉴스 크롤링] python crawling - 네이버 뉴스 기사 크롤링 file 졸리운_곰 2022.06.28 37
390 [python RPA] Robotic Process Automation with Python file 졸리운_곰 2022.03.03 37
389 [python RPA] 3 WAYS TO DO RPA WITH PYTHON file 졸리운_곰 2022.03.03 11
388 [Python RPA] [Python] - 모듈탐구 pyautogui - Python 폴터가이스트 졸리운_곰 2022.03.03 27
387 [python][자료구조] python anaconda 에서 mysql 접속 졸리운_곰 2022.01.25 78
386 [python][anaconda] 파이썬3(python3) 설치하고 환경(env) 관리하기 - 아나콘다3(anaconda3)를 활용한 설치 file 졸리운_곰 2022.01.20 16
385 [python][인공지능] [TensorFlow] Anaconda 가상환경 이용하여 TensorFlow GPU 설치 졸리운_곰 2022.01.20 37
384 [python][anaconda] 파이선 아나콘다 최신 버전 업데이트하기 file 졸리운_곰 2022.01.20 38
383 [python 자료구조] 림코딩의 파이썬으로 csv 다루기 강좌 (읽기,쓰기,수정,추가) 졸리운_곰 2022.01.16 48
382 [Python 데이터분석][python 데이터분석 프로덕션] [Python] Docker를 사용한 Dash 웹앱 생성 file 졸리운_곰 2021.12.10 40
381 [python][flask] bitnami의 django 서버로 flask 서비스 file 졸리운_곰 2021.12.10 14
380 [python 인터넷] How to Select CheckBox and Radio Button in Selenium WebDriver 졸리운_곰 2021.11.26 40
» [python 인터넷] [Python] Selenium 사용하기 (+PhantomJS) file 졸리운_곰 2021.11.26 16
378 [python 인터넷] Python Selenium(셀레니움) 크롬창 활성 탭 변경하기 file 졸리운_곰 2021.11.26 15
377 [python 인터넷 ,selenium] selenium iframe 처리하기 file 졸리운_곰 2021.11.26 36
376 [python 인터넷] Selenium에서 특정 element가 갑자기 클릭이 되지 않을 때 (python) 졸리운_곰 2021.11.26 14
375 [python 인터넷] Selenium Python button 클릭 file 졸리운_곰 2021.11.26 16
374 [python 인터넷] Tor browser 로 selenium webdriver 크롤링 ip 우회 [Windosws] 졸리운_곰 2021.11.26 17
373 [python 인터넷] 파이썬 셀레니움을 이용한 DC인사이드 자동 글쓰기 file 졸리운_곰 2021.11.26 87
372 [Python 인공지능] TextRank 를 이용한 키워드 추출과 핵심 문장 추출 (구현과 실험) file 졸리운_곰 2021.11.22 25
대표 김성준 주소 : 경기 용인 분당수지 U타워 등록번호 : 142-07-27414
통신판매업 신고 : 제2012-용인수지-0185호 출판업 신고 : 수지구청 제 123호 개인정보보호최고책임자 : 김성준 sjkim70@stechstar.com
대표전화 : 010-4589-2193 [fax] 02-6280-1294 COPYRIGHT(C) stechstar.com ALL RIGHTS RESERVED