Python3.x：pdf2htmlEX（解析pdf）安装和使用

简介

pdf2htmlEX是一款优秀的pdf转换成html的工具；

下载

windows下载地址：http://soft.rubypdf.com/software/pdf2htmlex-windows-version

安装

下载pdf2htmlEX-win32-0.14.6-with-poppler-data.zip后，直接解压，即可用；

测试

在dos窗口中切换到解压目录：

cd /d D:\pdf2htmlEX-win32-0.14.6

输入测试命令：

pdf2htmlex -v

结果如下图，表示安装成功；

pdf2html命令用法

用法: pdf2htmlEX [options] <input.pdf> [<output.html>]

  -f,--first-page <int>         需要转换的起始页 (默认: 1)

  -l,--last-page <int>          需要转换的最后一页 (默认: 2147483647)

  --zoom <fp>                   缩放比例

  --fit-width <fp>              适合宽度 <fp> 像素

  --fit-height <fp>             适合高度 <fp> 像素

  --use-cropbox <int>           使用剪切框 (default: 1)

  --hdpi <fp>                   图像水平分辨率 (default: 144)

  --vdpi <fp>                   图像垂直分辨率 (default: 144)

  --embed <string>              指定哪些元素应该被嵌入到输出

  --embed-css <int>             将CSS文件嵌入到输出中 (default: 1)

  --embed-font <int>            将字体文件嵌入到输出中 (default: 1)

  --embed-image <int>           将图片文件嵌入到输出中 (default: 1)

  --embed-javascript <int>      将javascript文件嵌入到输出中 (default: 1)

  --embed-outline <int>         将链接嵌入到输出中 (default: 1)

  --split-pages <int>           将页面分割为单独的文件 (default: 0)

  --dest-dir <string>           指定目标目录 (default: ".")

  --css-filename <string>       生成的css文件的文件名 (default: "")

  --page-filename <string>      分割的网页名称  (default:"")

  --outline-filename <string>   生成的链接文件名称 (default:"")

  --process-nontext <int>       渲染图行，文字除外 (default: 1)

  --process-outline <int>       在html中显示链接 (default: 1)

  --printing <int>              支持打印 (default: 1)

  --fallback <int>              在备用模式下输出 (default: 0)

  --embed-external-font <int>   嵌入局部匹配的外部字体 (default: 1)

  --font-format <string>        嵌入的字体文件后缀 (ttf,otf,woff,svg) (default: "woff")

  --decompose-ligature <int>    分解连字-> fi (default:0)

  --auto-hint <int>             使用fontforge的autohint上的字体时不提示 (default: 0)

  --external-hint-tool <string> 字体外部提示工具 (overrides --auto-hint) (default: "")

  --stretch-narrow-glyph <int>  伸展狭窄的字形，而不是填充 (default: 0)

  --squeeze-wide-glyph <int>    收缩较宽的字形，而不是截断 (default: 1)

  --override-fstype <int>       clear the fstype bits in TTF/OTF fonts (default:0)

  --process-type3 <int>         convert Type 3 fonts for web (experimental) (default: 0)

  --heps <fp>                   合并文本的水平临界值，单位：像素(default: 1)

  --veps <fp>                   vertical threshold for merging text, in pixels (default: 1)

  --space-threshold <fp>        断字临界值 (临界值 * em) (default:0.125)

  --font-size-multiplier <fp>   一个大于1的值增加渲染精度 (default: 4)

  --space-as-offset <int>       把空格字符作为偏移量 (default: 0)

  --tounicode <int>             如何处理ToUnicode的CMap (0=auto, 1=force,-1=ignore) (default: 0)

  --optimize-text <int>         尽量减少用于文本的HTML元素的数目 (default: 0)

  --bg-format <string>          指定背景图像格式 (default: "png")

  -o,--owner-password <string>  所有者密码 (为了加密文件)

  -u,--user-password <string>   用户密码 (为了加密文件)

  --no-drm <int>                覆盖文档的 DRM 设置 (default: 0)

  --clean-tmp <int>             转换后删除临时文件 (default: 1)

  --data-dir <string>           指定的数据目录 (default: ".\share\pdf2htmlEX")

  --debug <int>                 打印调试信息 (default: 0)

  -v,--version                  打印版权和版本信息

  -h,--help                     打印使用帮助信息

python3中调用pdf2htmlex示例

Python3.x：pdf2htmlEX（解析pdf）安装和使用的更多相关文章

python3使用pdfminer3k解析pdf文件
安装pdfminer模块 pip3 install pdfminer3k 代码如下 #!/usr/bin/env python # coding:utf8 # author:Z time:2018/7 ...
Python3.x：PDFMiner3k在线、本地解析pdf
Python3.x:PDFMiner3k在线.本地解析pdf 安装 pip install pdfminer3k 示例一:在线解析pdf ''' Demo:pdf2htmlex解析pdf Dateti ...
Python解析PDF三法
span{line-height:2em} --> 最近做调研想知道一些NZ当地的旅游信息,于是在NZ留学的友人自高奋勇地帮我去各个加油站拿了一堆旅游小册子,扫描了发给我. 但是他扫描出的高清图 ...
Python使用PDFMiner解析PDF
近期在做爬虫时有时会遇到网站只提供pdf的情况,这样就不能使用scrapy直接抓取页面内容了,只能通过解析PDF的方式处理,目前的解决方案大致只有pyPDF和PDFMiner.因为据说PDFMiner ...
PHP通过PDFParser解析PDF文件
之前一直找到的资料都是教你怎么生成pdf文档,比如:TCPDF.FPDF.wkhtmltopdf.而我碰到的项目里需要验证从远程获取的pdf文件是否受损.文件内容是否一致这些问题,这些都不能直接提供给 ...
Python3 常用爬虫库的安装
Python3 常用爬虫库的安装 1 简介 Windows下安装Python3常用的爬虫库:requests.selenium.beautifulsoup4.pyquery.pymysql.pymon ...
WPF解析PDF为图片
偶遇需要解析PDF文件为单张图,此做, http://git.oschina.net/jiailiuyan/OfficeDecoder using System; using System.Colle ...
Apache-Tika解析PDF文档
通常在使用爬虫时,爬取到网上的文章都是各式各样的格式处理起来比较麻烦,这里我们使用Apache-Tika来处理PDF格式的文章,如下: package com.mengyao.tika.app; im ...
LIMS系统仪器数据采集-使用xpdf解析pdf内容
不同语言解析PDF内容都有各自的库,比如Java的pdfbox,.net的itextsharp. c#解析PDF文本,关键代码可参考: http://www.cnblogs.com/mahongbia ...

随机推荐

IOS 分节表视图
分节表视图简单的表视图仅仅有一个节,它实际上是分节表视图的一个特例.一个表能够有多个节,节也有头有脚,分节是加入索引和分组的前提. 索引的正确使用原则如所看到的: 1.索引标题不能与显示的标题全然一 ...
Python_selenium之窗口切换
Python_selenium之窗口切换 1. 运用switch_to.window()方法来进行窗口切换 2. 思路拆分: 浏览器获取百度贴吧网址点击定位到一个元素,获取当前的句柄获得所有的句柄 ...
scrapy 相关
Spider类的一些自定制 # Spider类自定义起始解析器 def start_requests(self): for url in self.start_urls: yield Reques ...
JavaScript------分页插件下载地址
转载: https://github.com/pgkk/kkpager
Java知识点梳理——多态
1.定义:多态是同一个行为具有多个不同表现形式或形态的能力,即一个接口不同的实例执行不同的操作: 2.优点:消除类型之间的耦合关系.可替换性.可扩展性.接口性.灵活性.简化性: 3.多态存在的3个必要 ...
Android无线测试之—UiAutomator UiObject API介绍七
判断对象是否存在 1.判断对象是否存在相关API 返回值 API 描述 boolean waitForExists(long timeout) 等待对象出现 boolean waitUntilGone ...
python 之re模块（正则表达式）分组、断言详解
正则表达式分组.断言详解提示:阅读本文需要有一定的正则表达式基础. 正则表达式中的断言,作为高级应用出现,倒不是因为它有多难,而是概念比较抽象,不容易理解而已,今天就让小菜通俗的讲解一下. 如果 ...
【BZOJ4145】[AMPPZ2014]The Prices 状压DP
[BZOJ4145][AMPPZ2014]The Prices Description 你要购买m种物品各一件,一共有n家商店,你到第i家商店的路费为d[i],在第i家商店购买第j种物品的费用为c[i ...
Cocos2d-x学习笔记：CCSprite的使用总结
一.精灵创建及初始化备注:默认锚点ccp(0.5,0.5),默认位置 ccp(0,0),contentSize为精灵图片尺寸 1.从图片文件创建 2.从帧缓存创建: 3.初始化及自定义大小 4. 从 ...
oracle批量update
我个人觉得写的很好 http://blog.csdn.net/wanglilin/article/details/7200201 需求: 将t2(t_statbuf)表中id和t1(T_Mt)表相同的 ...

Python3.x：pdf2htmlEX（解析pdf）安装和使用

Python3.x：pdf2htmlEX（解析pdf）安装和使用

简介

下载

安装

测试

pdf2html命令用法

python3中调用pdf2htmlex示例

Python3.x：pdf2htmlEX（解析pdf）安装和使用的更多相关文章

随机推荐

热门专题