Project description

Pipeline to Download PDF or Save page as PDF for scrapy item

Installation

Install scrapy-save-as-pdf using pip:

pip install scrapy-save-as-pdf

Configuration

  1. (Optionally) if you want to use WEBDRIVER_HUB_URL, you can use docker to setup one like this:
docker run -d -p 4444:4444 -v /dev/shm:/dev/shm selenium/standalone-chrome:4.0.0-alpha-7-20201119

then WEBDRIVER_HUB_URL value is http://docker_host_ip:4444/wd/hub and we often debug on local host, so we use http://127.0.0.1:4444/wd/hub

  1. Add the settings.py of your Scrapy project like this:
PROXY = ""
CHROME_DRIVER_PATH ='/snap/bin/chromium.chromedriver'
PDF_SAVE_PATH = "./pdfs"
PDF_SAVE_AS_PDF = False
PDF_DOWNLOAD_TIMEOUT = 60
PDF_PRINT_OPTIONS = {
    'landscape': False,
    'displayHeaderFooter': False,
    'printBackground': True,
    'preferCSSPageSize': True,
}
WEBDRIVER_HUB_URL = 'http://127.0.0.1:4444/wd/hub'

If both WEBDRIVER_HUB_URL and CHROME_DRIVER_PATH are set, we use WEBDRIVER_HUB_URL.

  1. Enable the pipeline by adding it to ITEM_PIPELINES in your settings.py file and changing priority:
ITEM_PIPELINES = {
    'scrapy_save_as_pdf.pipelines.SaveAsPdfPipeline': -1,
}

The order should before your persist pipeline such as save to database and after your preprocess pipeline.

In the demo scrapy project, I put the SaveToQiniuPipeline after this plugin to persist pdf to the cloud.

Usage

set the pdf_url and/or url field in your yielded item

import scrapy

class MySpider(scrapy.Spider):
    start_urls = [
        "http://example.com",
    ]

    def start_requests(self):
        for url in self.start_urls:
            yield scrapy.Request(url, self.parse)

    def parse(self, response):
        yield {
            "url": "http://example.com/cate1/page1.html",
            "pdf_url": "http://example.com/cate1/page1.pdf",
        }
        yield {
            "url": "http://example.com/cate1/page2.html",
            "pdf_url": "http://example.com/cate1/page2.pdf",
        }

the pdf_url field will be populated with the downloaded pdf file location, if pdf_url field has old value then move it to origin_pdf_url field, you can handle them in your next pipeline.

경축! 아무것도 안하여 에스천사게임즈가 새로운 모습으로 재오픈 하였습니다.
어린이용이며, 설치가 필요없는 브라우저 게임입니다.
https://s1004games.com

Getting help

Please use github issue

Contributing

PRs are always welcomed.

Changes

0.1.0 (2020-12-25)

Initial release

 

[출처] https://pypi.org/project/scrapy-save-as-pdf/

 

 

본 웹사이트는 광고를 포함하고 있습니다.
광고 클릭에서 발생하는 수익금은 모두 웹사이트 서버의 유지 및 관리, 그리고 기술 콘텐츠 향상을 위해 쓰여집니다.
번호 제목 글쓴이 날짜 조회 수
352 [scrapy] https://pypi.org/project/scrapy-save-as-pdf/ 졸리운_곰 2021.07.03 75
» Pipeline to Download PDF or Save page as PDF for scrapy item 졸리운_곰 2021.06.26 16
350 [python, 인터넷] [카프카] Python으로 Kafka에 전송(Producer)하고 가져오기(consumer) file 졸리운_곰 2021.06.19 19
349 [Python, 인터넷] 네이버 뉴스 기사 크롤링 졸리운_곰 2021.05.23 128
348 [Python, GUI tool] GUI drag & drop style GUI Builder for Python Tkinter file 졸리운_곰 2021.05.17 150
347 [python] 파이썬 기초 문법 정리 졸리운_곰 2021.05.17 49
346 [python][flask] webpage-scraper file 졸리운_곰 2021.04.28 46
345 [python][자동화] python으로 카카오톡 자동 메시지 전송 졸리운_곰 2021.04.27 51
344 [python 파이썬 2d 그래픽스] The Interesting Python Graphics Libraries for Python Programmers file 졸리운_곰 2021.04.27 512
343 [python] [GPU]GPU 사용 Python 코드 실행 졸리운_곰 2021.04.21 132
342 [python][ip 추적] 영화와 같은 ip 위치 추적 python 소스 IP Radar 2 file 졸리운_곰 2021.04.15 68
341 [웹서버] Flask + REST API + Swagger file 졸리운_곰 2021.04.04 50
340 Python Flask 로 간단한 REST API 작성하기 file 졸리운_곰 2021.04.04 317
339 [python][jupyter notebook][JSON API] Building a JSON API Using Jupyter Notebooks in Under 5 Minutes file 졸리운_곰 2021.03.28 59
338 Python Flask 프레임워크 이해하기 file 졸리운_곰 2021.03.21 29
337 Python Flask 로 간단한 REST API 작성하기 file 졸리운_곰 2021.03.21 32
336 [python][인공지능] FLASK를 이용하여 PYTHON에서 PYTORCH를 REST API로 배포하기 졸리운_곰 2021.03.20 75
335 [python] Apache Airflow PythonOperator 실습하기(중급) file 졸리운_곰 2021.03.18 17
334 [python] Apache Airflow 소개 및 실습하기(기초) file 졸리운_곰 2021.03.18 17
333 [python internet, MSA] REST API Development with Flask file 졸리운_곰 2021.03.14 56
대표 김성준 주소 : 경기 용인 분당수지 U타워 등록번호 : 142-07-27414
통신판매업 신고 : 제2012-용인수지-0185호 출판업 신고 : 수지구청 제 123호 개인정보보호최고책임자 : 김성준 sjkim70@stechstar.com
대표전화 : 010-4589-2193 [fax] 02-6280-1294 COPYRIGHT(C) stechstar.com ALL RIGHTS RESERVED