用PDFMiner从PDF中提取文本文字

1、下载并安装PDFMiner

　　从https://pypi.python.org/pypi/pdfminer/下载PDFMineer

wget https://pypi.python.org/packages/57/4f/e1df0437858188d2d36466a7bb89aa024d252bd0b7e3ba90cbc567c6c0b8/pdfminer-20140328.tar.gz#md5=dfe3eb1b7b7017ab514aad6751a7c2ea

　　加压并安装

tar -zxvf pdfminer-.tar.gz

cd pdfminer-/

make cmap　　#防止中文乱码，否则处理中文会出现一大堆（CID:xxx）

sudo python setup.py install

2、提取文本文字

from cStringIO import StringIO

from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter

from pdfminer.converter import TextConverter

from pdfminer.layout import LAParams

from pdfminer.pdfpage import PDFPage

import sys

import string

def convert_pdf_2_text(path):

    rsrcmgr = PDFResourceManager()

    retstr = StringIO()

    device = TextConverter(rsrcmgr, retstr, codec='utf-8', laparams=LAParams())

    interpreter = PDFPageInterpreter(rsrcmgr, device)

    with open(path, 'rb') as fp:

        for page in PDFPage.get_pages(fp, set()):

            interpreter.process_page(page)

        text = retstr.getvalue()

    device.close()

    retstr.close()

    return text

text = convert_pdf_2_text(sys.argv[1])

open('real?.txt','wb').write(text)

3、测试结果

【1】http://www.unixuser.org/~euske/python/pdfminer/#source

【2】https://www.zhihu.com/question/31586273

用PDFMiner从PDF中提取文本文字的更多相关文章

java从pdf中提取文本
一(单文件转换):下载pdfbox包,百度搜pdfbox.(fontbox-1.8.16.jar和pdfbox-app-1.8.16.jar) package pdf; import java.io. ...
从PDF中提取信息----PDFMiner
今天由于某种原因需要将pdf中的文本提取出来,就去搜了下资料,发现PDFMiner是针对内容提取的,虽然最后发现pdf里面的文本全都是图片,就没整成功,不过试了个文本可复制的那种pdf文件,发现还 ...
如何使用免费PDF控件从PDF文档中提取文本和图片
如何使用免费PDF控件从PDF文档中提取文本和图片概要现在手头的项目有一个需求是从PDF文档中提取文本和图片,我以前也使用过像iTextSharp, PDFBox 这些免费的PD ...
在线提取PDF中图片和文字
无需下载软件,你就可以在线提取PDF中图片和文字,http://www.extractpdf.com/不仅可以获取本地PDF文档的图片和文字,还能获取远程PDF文档的图片和文字.如下图所示:结果本人测 ...
java itext替换PDF中的文本
itext没有提供直接替换PDF文本的接口,我们可以通过在原有的文本区域覆盖一个遮挡层,再在上面加上文本来实现. 所需jar包: 1.先在PDF需要替换的位置覆盖一个白色遮挡层(颜色可根据PDF文字背 ...
利用java从docx文档中提取文本内容
利用java从docx文档中提取文本内容使用Apache的第三方jar包,地址为https://poi.apache.org/ docx文档内容如图: 目录结构: 每个文件夹的名称为日期加上来源,例 ...
C# 设置或验证 PDF中的文本域格式
概述 PDF中的文本域可以通过设置不同格式,用于显示数字.货币.日期.时间.邮政编码.电话号码和社保号等等.Adobe Acrobat提供了许多固定的JavaScripts用来设置和验证文本域的格式, ...
使用itext直接替换PDF中的文本
直接说问题,itext没有直接提供替换PDF中文本的接口(查看资料得到的结论是PDF不支持这种操作),不过存在解决思路:在需要替换的文本上覆盖新的文本.按照这个思路我们需要解决以下几个问题: itex ...
Java 读取PDF中的文本和图片
本文将介绍通过Java程序来读取PDF文档中的文本和图片的方法.分别调用方法extractText()和extractImages()来读取. 使用工具:Free Spire.PDF for Ja ...

随机推荐

YTU 2417: C语言习题字符串长度
2417: C语言习题字符串长度时间限制: 1 Sec 内存限制: 128 MB 提交: 758 解决: 548 题目描述写一函数,求一个字符串的长度.在main函数中输入字符串,并输出其长 ...
使用JQuery.Validate插件来校验页面表单有效性
使用JQuery.Validate插件来校验页面表单有效性1. [代码] 常见的注册表单元素 <form action="#" method="post" ...
Java中文&编码问题小结
转自:http://www.blogjava.net/zhugf000/archive/2005/10/09/15068.html Java字符编码转换过程说明常见问题 JVM JVM启动后,JVM ...
SPOJ：Bits. Exponents and Gcd（组合数+GCD）
Rastas's has been given a number n. Being weak at mathematics, she has to consider all the numbers f ...
【USACO06NOV】路障
[题目链接] 点击打开链接 [算法] 最短路 [代码] #include<bits/stdc++.h> using namespace std; #define MAXN 5000 #de ...
struct 结构体解析（原）
(一)基本概念结构体是一个或是多个变量的集合,这些变量可能为不同的类型,为了处理的方便而将这些变量组合在一个名字之下.我们将关键字struct引入了结构声明中.结构声明包含在花括号内的一系列声明组成 ...
用 SDL2 显示一张图片
来源: http://adolfans.github.io/sdltutorialcn/ (中文教程) http://www.willusher.io/pages/sdl2/ (英文教程) 环境:SD ...
容器之vector
#include <iostream> #include <vector> #include <string.h> #include <algorithm&g ...
vue微信公众号、H5微信支付
1.H5微信支付后台会返回一个URL,前端直接跳转就OK(需要你传给后台一个ip,必须保证在同一域名下) 使用window.location.href =res.data;进行页面跳转到支付界面(r ...
C#中的Webservice实例代码(vs2013)
2.1首先创建一个最基本的web service服务端,顾名思义就是提供服务,这儿实现一个简单的加法计算. 首先,vs2013--文件---新建项目---Asp.net 空Web 应用程序 (V ...

用PDFMiner从PDF中提取文本文字

用PDFMiner从PDF中提取文本文字的更多相关文章

随机推荐

热门专题