python 网页转pdf

主要使用的是wkhtmltopdf的Python封装——pdfkit

centos环境

安装：Install python-pdfkit

pip install pdfkit

安装：Install wkhtmltopdf

yum intsall wkhtmltopdf

windows环境下安装wkhtmltopdf参考这篇文章：

http://blog.csdn.net/qq_14873105/article/details/51394026

Linux环境下安装wkhtmltopdf参考这篇文章：

http://blog.csdn.net/mr_zing/article/details/52833461使用：

import   pdfkit

pdfkit.from_string('hello,python','out.pdf') #通过文本直接进行转换

pdfkit.from_url('http://baidu.com','out.pdf') #通过网址进行转换

pdfkit.from_file('test.html', 'out.pdf') #通过html文件进行转换

我们也可以传递一个url或者文件名列表：

pdfkit.from_url(['google.com', 'yandex.ru', 'engadget.com'], 'out.pdf') pdfkit.from_file(['file1.html', 'file2.html'], 'out.pdf')

也可以传递一个打开的文件：

with open('file.html') as f:

    pdfkit.from_file(f,'out.pdf')

如果想对生成的PDF作进一步处理，我们可以将其读取到一个变量中：

#设置输出文件为False，将结果赋给一个变量

pdf = pdfkit.form_url('http://google.com', False)

我们可以制定所有的 wkhtmltopdf 选项 http://wkhtmltopdf.org/usage/wkhtmltopdf.txt. 我们可以移除选项名字前面的 '--' .如果选项没有值, 使用None, Falseor * 作为字典值:

options = {

 'page-size': 'Letter',

 'margin-top': '0.75in',

 'margin-right': '0.75in',

 'margin-bottom': '0.75in',

 'margin-left': '0.75in',

 'encoding': "UTF-8",

 'no-outline': None

 }

pdfkit.from_url('http://google.com', 'out.pdf', options=options)

默认情况下, PDFKit 将会显示所有的 wkhtmltopdf 输出. 如果不想看到这些信息，你需要传递一个 quiet 选项:

options = {

 'quiet': ''

 }

 pdfkit.from_url('google.com', 'out.pdf', options=options)

由于wkhtmltopdf的命令语法 , TOC 和 Cover 选项必须分开指定:

toc = {

 'xsl-style-sheet': 'toc.xsl'

 }

cover = 'cover.html'

pdfkit.from_file('file.html', options=options, toc=toc, cover=cover)

当我们转换文件、或字符串的时候，可以通过css选项指定扩展的 CSS 文件。

# 单个 CSS 文件

css = 'example.css'

pdfkit.from_file('file.html', options=options, css=css)

# Multiple CSS files

css = ['example.css', 'example2.css']

pdfkit.from_file('file.html', options=options, css=css)

也可以通过HTML中的meta tags传递任意选项：

body = """

        <html>

          <head>

            <meta name="pdfkit-page-size" content="Legal"/>

            <meta name="pdfkit-orientation" content="Landscape"/>

          </head>

          Hello World!

          </html>

        """

pdfkit.from_string(body, 'out.pdf') #with --page-size=Legal and --orientation=Landscape

转载地址：https://www.jianshu.com/p/44ec7a83adcb

python 网页转pdf的更多相关文章

Python|网页转PDF,PDF转图片爬取校园课表~
import pdfkit import requests from bs4 import BeautifulSoup from PIL import Image from pdf2image imp ...
python 爬虫，网页转PDF：OSError: No wkhtmltopdf executable found
解决办法: 代码中设置参数: path_wk = r‘D:\Program Files\wkhtmltopdf\bin\wkhtmltopdf.exe‘ #wkhtmltopdf安装位置 config ...
pypdf2:下载Americanlife网页生成pdf合并pdf并添加书签
初步熟悉安装 pip install pypdf2 合并并添加书签 #!/usr/bin/env python3.5 # -*- coding: utf-8 -*- # @Time : 2019/1 ...
从零开始学Python网络爬虫PDF高清完整版免费下载|百度网盘
百度网盘:从零开始学Python网络爬虫PDF高清完整版免费下载提取码:wy36 目录前言第1章 Python零基础语法入门 11.1 Python与PyCharm安装 11.1.1 Python ...
python网页请求urllib2模块简单封装代码
这篇文章主要分享一个python网页请求模块urllib2模块的简单封装代码. 原文转自:http://www.jbxue.com/article/16585.html 对python网页请求模块ur ...
Python 网页爬虫 & 文本处理 & 科学计算 & 机器学习 & 数据挖掘兵器谱（转）
原文:http://www.52nlp.cn/python-网页爬虫-文本处理-科学计算-机器学习-数据挖掘曾经因为NLTK的缘故开始学习Python,之后渐渐成为我工作中的第一辅助脚本语言,虽然开 ...
使用Pechkin将HTML网页转换为PDF
Pechkin开源组件使用wkhtmlbox,可以解析CSS样式,将网页转换为PDF文件, 支持URL,或者HTML字符串 1, 从NuGet程序管理器中获得Pechkin GlobalConfig ...
【Python】Python 网页爬虫 & 文本处理 & 科学计算 & 机器学习 & 数据挖掘兵器谱
本文转载自:https://www.cnblogs.com/colipso/p/4284510.html 好文 mark http://www.52nlp.cn/python-%E7%BD%91%E9 ...
Python之将Python字符串生成PDF
笔者在今天的工作中,遇到了一个需求,那就是如何将Python字符串生成PDF.比如,需要把Python字符串'这是测试文件'生成为PDF, 该PDF中含有文字'这是测试文件'. 经过一番检索, ...

随机推荐

Loj #2256. 「SNOI2017」英雄联盟
题目我就是个丝薄如果要用\(dp_i\)表示凑出\(i\)的最小花费显然不可能的之后大力猜想能凑出来的状态不会很多,我的暴力也告诉我不是很多,好像也确实不多的样子,大概\(4e4\)左右但是我 ...
Hive学习之路（三）Hive元数据信息对应MySQL数据库表
概述 Hive 的元数据信息通常存储在关系型数据库中,常用MySQL数据库作为元数据库管理.上一篇hive的安装也是将元数据信息存放在MySQL数据库中. Hive的元数据信息在MySQL数据中有57 ...
Electron简介和安装使用
一.Electron简介Electron的应用,使得了JS不仅仅可以BS端项目,还可以做CS端项目. 另外今天之所以研究下Electron,还是因为公司的需要,业务场景是,通过Electron.js开 ...
关于wordpress主题、插件上传和下载问题及其上传图片权限问题解决方案
主题官方下载地址:https://wordpress.org/themes/ 插件官方下载地址: https://wordpress.org/plugins/ 主题的上传下载,无疑是需要ftp服务器的 ...
gulp插件 run-sequence(同步执行任务)
功能描述 gulp默认使用最大并发数执行任务,也就是说所有的任务几乎都是同时执行,而不会等待其它任务.但很多时候,任务是需要有先后次序的,比如要先清理目标目录,然后再执行打包. run-sequenc ...
小程序canvas中文字设置居中锚点
小程序中经常会遇到要生成图片的需求,图片一般会加上用户的头像和昵称之类的,头像只需要把腾讯域名添加到request和download列表中,使用wx.getImageInfo()就可以缓存到本地,成功 ...
如何给sublime text.安装插件
1.Sublime的Package Control安装方法 Package Control插件本身是一个为了方便管理插件的插件第一步:ctrl+~,在弹出的下部边框中输入: 如果是 Sublime ...
Mac开发中遇到的一些小问题解析
通过mac开发的过程中,有一些小问题出现,列如下,后续会持续增加: 1. 命令行清空废纸篓(jar包太多,倾倒废纸篓太慢) sudo rm -rfv ~/.Trash /Volumes/*/.Tras ...
centos7.4安装redis以及配置外网访问
一.安装redis 第一步:下载redis安装包 wget http://download.redis.io/releases/redis-4.0.6.tar.gz [root@VM_34_108_c ...
PHP+MySQL实现海量数据导入导出的总结：is_numbric函数的坑
前段时间有个需求:将生产环境的部分数据转移到测试服务器进行测试.由于只需要导入特定账号的数据,我就想着将写个脚本,将数据组装成sql语句导出为sql文件,然后转移到测试服务器,导入到MySQL中.想象 ...

python 网页转pdf

python 网页转pdf的更多相关文章

随机推荐

热门专题