最近项目需要实现根据关键字搜索pdf内容,实现思路就是提取pdf文本,然后进行索引. 工具上选择: IText 4.16之后采用agpl License,不能用作商用,而且转换中文会有乱码问题, pdfsharp 采用MIT License,权限上没有问题,但是转换中文也会有乱码, 最后决定采用xpdf. 官网地址:https://www.xpdfreader.com/download.html 需要下载对应的xpdf包,本人采用的windows x64 版本 此外还要下载中文字符集包:简体中文