tika提取pdf信息异常

org.apache.tika.sax.WriteOutContentHandler$WriteLimitReachedException: Your document contained more than 100000 characters, and so your requested limit has been reached. To receive the full text of the document, increase your limit. (Text up to the limit is however available).

at org.apache.tika.sax.WriteOutContentHandler.characters(WriteOutContentHandler.java:141)

at org.apache.tika.sax.ContentHandlerDecorator.characters(ContentHandlerDecorator.java:146)

at org.apache.tika.sax.xpath.MatchingContentHandler.characters(MatchingContentHandler.java:85)

at org.apache.tika.sax.ContentHandlerDecorator.characters(ContentHandlerDecorator.java:146)

at org.apache.tika.sax.ContentHandlerDecorator.characters(ContentHandlerDecorator.java:146)

at org.apache.tika.sax.SafeContentHandler.access$001(SafeContentHandler.java:46)

at org.apache.tika.sax.SafeContentHandler$1.write(SafeContentHandler.java:82)

at org.apache.tika.sax.SafeContentHandler.filter(SafeContentHandler.java:140)

at org.apache.tika.sax.SafeContentHandler.characters(SafeContentHandler.java:287)

at org.apache.tika.sax.XHTMLContentHandler.characters(XHTMLContentHandler.java:278)

at org.apache.tika.sax.XHTMLContentHandler.characters(XHTMLContentHandler.java:305)

at org.apache.tika.parser.pdf.PDF2XHTML.writeString(PDF2XHTML.java:398)

at org.apache.pdfbox.util.PDFTextStripper.writeString(PDFTextStripper.java:866)

at org.apache.pdfbox.util.PDFTextStripper.writeLine(PDFTextStripper.java:1896)

at org.apache.pdfbox.util.PDFTextStripper.writePage(PDFTextStripper.java:744)

at org.apache.pdfbox.util.PDFTextStripper.processPage(PDFTextStripper.java:461)

at org.apache.pdfbox.util.PDFTextStripper.processPages(PDFTextStripper.java:385)

at org.apache.pdfbox.util.PDFTextStripper.writeText(PDFTextStripper.java:344)

at org.apache.tika.parser.pdf.PDF2XHTML.process(PDF2XHTML.java:130)

at org.apache.tika.parser.pdf.PDFParser.parse(PDFParser.java:159)

在使用apache tika提取pdf信息时，报以上错误。根据错误信息提示，可能读取超过请求限制（10万字）。

我的代码如下：

		Parser parser = new PDFParser();

		//parser.

		BodyContentHandler handler = new BodyContentHandler();

		Metadata metadata = new Metadata();

		InputStream stream = null;

		try {

			stream = new FileInputStream(new File("1.pdf"));

			parser.parse(stream, handler, metadata, new ParseContext());

			 for (String name : metadata.names()) {

                 System.out.println(name + ":\t" + metadata.get(name));

             }

		} catch (IOException e) {

			// TODO Auto-generated catch block

			e.printStackTrace();

		} catch (SAXException e) {

			// TODO Auto-generated catch block

			e.printStackTrace();

		} catch (TikaException e) {

			// TODO Auto-generated catch block

			e.printStackTrace();

		} finally {

			try {

				stream.close();

			} catch (IOException e) {

				// TODO Auto-generated catch block

				e.printStackTrace();

			}

		}

　　对读取字数限制，可能在某个构造函数里我没有传入最大限制，而使用了默认的十万字。检查一下上面的代码，我注意到了

BodyContentHandler的构造函数：

org.apache.tika.sax.BodyContentHandler.BodyContentHandler(int writeLimit)

　　看样子有关系。修改一下构造函数的数字为：10*1024*1024（这个数字有pdf文档大小决定）。

重新调试程序，即可获得pdf的元数据信息如下：

dc:subject:

meta:save-date:	2014-07-22T21:02:38Z

subject:	PostgreSQL 9.3 Documentation

Author:	The PostgreSQL Global Development Group

dcterms:created:	2014-07-22T20:55:33Z

date:	2014-07-22T21:02:38Z

creator:	The PostgreSQL Global Development Group

Creation-Date:	2014-07-22T20:55:33Z

title:	PostgreSQL 9.3 Documentation

trapped:	False

meta:author:	The PostgreSQL Global Development Group

created:	Wed Jul 23 04:55:33 CST 2014

meta:keyword:

cp:subject:	PostgreSQL 9.3 Documentation

dc:format:	application/pdf; version=1.4

PTEX.Fullbanner:	This is pdfTeX, Version 3.1415926-2.4-1.40.13 (TeX Live 2012/Debian) kpathsea version 6.1.0

xmp:CreatorTool:	LaTeX with hyperref package

Keywords:

dc:title:	PostgreSQL 9.3 Documentation

Last-Save-Date:	2014-07-22T21:02:38Z

meta:creation-date:	2014-07-22T20:55:33Z

dcterms:modified:	2014-07-22T21:02:38Z

dc:creator:	The PostgreSQL Global Development Group

pdf:PDFVersion:	1.4

Last-Modified:	2014-07-22T21:02:38Z

modified:	2014-07-22T21:02:38Z

xmpTPg:NPages:	2861

pdf:encrypted:	false

producer:	pdfTeX-1.40.13; modified using iText® 5.1.3 ©2000-2011 1T3XT BVBA

Content-Type:	application/pdf

tika提取pdf信息异常的更多相关文章

Java文件操作系列[1]——PDFBox实现分页提取PDF文本
需求:用java分页提取PDF文本. PDFBox是一个很好的可以满足上述需求的开源工具. 1.PDF文档结构要解析PDF文本,我们首先要了解PDF文件的结构. 关于PDF文档,最重要的几点: 一, ...
利用python第三方库提取PDF文件的表格内容
小爬最近接到一个棘手任务:需要提取手机话费电子发票PDF文件中的数据.接到这个任务的第一时间,小爬决定搜集各个地区各个时间段的电子发票文件,看看其中的差异点.粗略统计下来,PDF文件的表格框架是统一的 ...
Python使用Tabula提取PDF表格数据
今天遇到一个批量读取pdf文件中表格数据的需求,样式大体是以下这样: python读取PDF无非就是三种方式(我所了解的),pdfminer.pdf2htmlEX 和 Tabula.综合考虑后,选择了 ...
Tika提取文件元数据
Tika可以从文件中提取元数据. 什么是元数据: 元数据是文件所提供的的附件信息即文件的属性. word文档的元数据: Tika提取元数据: 我们可以使用文件parse()方法提取元数据,传递一个空的 ...
Java 添加、提取PDF中的图片
Spire.Cloud.SDK for Java提供了PdfImagesApi接口可用于添加图片到PDF文档addImage().提取PDF中的图片extractImages(),具体操作步骤和Jav ...
在线提取PDF中图片和文字
无需下载软件,你就可以在线提取PDF中图片和文字,http://www.extractpdf.com/不仅可以获取本地PDF文档的图片和文字,还能获取远程PDF文档的图片和文字.如下图所示:结果本人测 ...
java 反射提取类信息，动态代理和过滤某些方法演示
java 反射提取类信息, 动态代理和过滤某些方法演示 package org.rui.classts.reflects; import java.lang.reflect.Constructor; ...
论文系统Step1:从日志记录中提取特定信息
论文系统Step1:从日志记录中提取特定信息前言论文数据需要,需要实现从服务器日志中提取出用户的特定交互行为信息.日志内容如下: 自己需要获取"请求数据包一行的信息"及&quo ...
Java 使用PDFBox提取PDF文件中的图片
今天做PDF文件解析,遇到一个需求:提取文件中的图片并保存.使用的是流行的apache开源jar包pdfbox, 但还是遇到坑了,比如pdfbox版本太高或太低都不能用!!这个包竟然没有很好地做好兼容 ...

随机推荐

C# ICSharpCode.SharpZipLib.dll文件压缩和解压功能类整理，上传文件或下载文件很常用
工作中我们很多时候需要进行对文件进行压缩,比较通用的压缩的dll就是ICSharpCode.SharpZipLib.dll,废话不多了,网上也有很多的资料,我将其最常用的两个函数整理了一下,提供了一个 ...
当使用母版页时JavaScript客户端获取服务器控件的Id
当使用MasterPage.UserControl等容器时,为了避免控件的重复命名,asp.net会自动将容器中的控件生成一个ClientID(Control Tree中的可生成,否则不会生成). J ...
csharp:Chart
http://www.dotnetperls.com/chart using System; using System.Windows.Forms; using System.Windows.Form ...
ActiveReports 报表应用教程 (8)---交互式报表之动态过滤
用户可以使用ActiveReports参数 (Parameters)集合把数据提供给报表中的文本框或图表,也可以选择数据的一个子集显示到报表的特定区域,或者是把数据从主报表象子报表传递.用户可以通过三 ...
使用Dhcpstarv解决DHCP服务器冲突问题
场景: 内网环境需要开启多个DHCP服务器,分别给不同的设备进行PXE安装. 存在的问题: 多个DHCP的情况下,设备在启动时随机从一个DHCP服务器获取IP(哪个DHCP服务器先响应就从哪个获取)并 ...
使用PreparedStatement执行SQL语句时占位符(?)的用法
1.Student数据库表 ID name gender 2.Java代码 public static void main(String[] args) { int _id=1; Str ...
javascript 之正则匹配HTML
正则表达式 <(\S*?) [^>]*>.*?</\1>|<.*? /> 匹配 <html>hello</html>|<a> ...
PHP异常与错误处理机制
先区别一下php中错误与异常的概念吧 PHP错误:是属于php程序自身的问题,一般是由非法的语法,环境问题导致的,使得编译器无法通过检查,甚至无法运行的情况.平时遇到的warming.notice ...
【背景建模】PBAS
Pixel-Based Adaptive Segmenter(PBAS)检测算法,是基于像素的无参数模型,该算法结合了SACON和VIBE两个算法的优势,并在这两个算法的基础上改进而来,SACON和V ...
Android5.0新特性——阴影和剪裁（shadow）
阴影和剪裁 View的z属性 Material Design建议为了凸显布局的层次,建议使用阴影效果,并且Android L为了简化大家的工作,对View进行了扩展,能使大家非常方便的创建阴影效果: ...

tika提取pdf信息异常

tika提取pdf信息异常的更多相关文章

随机推荐

热门专题