c#抽取pdf文档标题（2）

  public class IETitle

     {

         public static List<WordInfo> WordsInfo = new List<WordInfo>();

         private static string pdfcontent;

         public static HandleResult GetTitle(string path, string realtitle)

         {

             WordsInfo.Clear();

             string content = string.Empty;

             try

             {

                 content = ITextSharpLib.ExtractTextFromPdf(path);

             }

             catch

             {

                 try

                 {

                     content = PDFBoxLib.Pdf2txt(path);

                 }

                 catch (Exception ex)

                 {

                 }

             }

             pdfcontent = content;

             PDFBoxLib.HandleContent(path);

             //处理字符

             Word w = new Word();

             w.MakeWord(WordsInfo);

             Line line = new Line();

             line.MakeLine(w);

             //处理行

             Block block = new Block();

             block.MakeBlock(line);

             //获取全部的文本

             string text = string.Empty;

             try

             {

                 text = ITextSharpLib.ExtractTextFromPdf(path, );

             }

             catch (Exception ex)

             {

                 text = content;

             }

             HandleResult title = new HandleResult() { Title = "" };

             try

             {

                 var sentences = text.Split('\n');

                 InfoExtract ie = new InfoExtract(sentences, text);

                 title = ie.ExtractTitle(block, realtitle);

             }

             catch (Exception ex)

             {

                 Logger.Debug(ex.Message);

             }

             return title;

         }

     }

上面就是获取标题的整体逻辑代码。29行，是调用pdfboxLib，读取pdf第一页内容：

  public static string HandleContent(string fileName, int pageIndex = )

         {

             try

             {

                 PDDocument document = null;

                 try

                 {

                     document = PDDocument.load(fileName);

                     List allPages = document.getDocumentCatalog().getAllPages();

                     int size = pageIndex ==  ? allPages.size() : ;

                     for (int i = ; i < size; i++)

                     {

                         var page = (PDPage)allPages.get(i);

                         var contents = page.getContents();

                         PrintTextLocatins2 printer = new PrintTextLocatins2();

                         if (contents != null)

                         {

                             printer.processStream(page, page.findResources(), page.getContents().getStream());

                         }

                     }

                 }

                 catch (Exception ex)

                 {

                 }

                 finally

                 {

                     if (document != null)

                     {

                         document.close();

                     }

                 }

             }

             catch (Exception ex)

             {

             }

             return "";

         }

第23行 printer.processStream方法，会触发自定义类PrintTextLocation2类中的字符处理方法 processTextPosition：

  public class PrintTextLocatins2 : PDFTextStripper

     {

         private static int BOLD_F_NUM = ;

         private static String[] BOLD_FLAGS = { "Bold", "CAJ FNT04" };

         private static int ITALIC_F_NUM = ;

         private static String[] ITALIC_FLAGS = { "Italic", "CAJ FNT03" };

         private static bool IsBold(String font)

         {

             int i;

             for (i = ; i < BOLD_F_NUM; i++)

                 if (font.Contains(BOLD_FLAGS[i]))

                     return true;

             return false;

         }

         private static bool IsItalic(String font)

         {

             int i;

             for (i = ; i < ITALIC_F_NUM; i++)

                 if (font.Contains(ITALIC_FLAGS[i]))

                     return true;

             return false;

         }

         public PrintTextLocatins2()

         {

             base.setSortByPosition(false);

         }

         protected override void processTextPosition(TextPosition text)

         {

             WordInfo info = new WordInfo()

             {

                 X = text.getX(),

                 Y = text.getY(),

                 XDirAdj = text.getXDirAdj(),

                 YDirAdj = text.getYDirAdj(),

                 FontSize = text.getFontSize(),

                 Xscale = text.getXScale(),

                 Yscale = text.getYScale(),

                 Height = text.getHeight(),

                 Space = text.getWidthOfSpace(),

                 Width = text.getWidth(),

                 Subfont = text.getFont().getSubType(),

                 Basefont = text.getFont().getBaseFont(),

                 IsBold = IsBold(text.getFont().getBaseFont()),

                 IsItalic = IsItalic(text.getFont().getBaseFont()),

                 XSize = (int)(text.getFontSize() * text.getXScale()),

                 YSize = (int)(text.getFontSize() * text.getYScale()),

                 Word = text.getCharacter()

             };

             if (info.Space.ToString() == "非数字")

             {

                 info.Space = ;

             }

             IETitle.WordsInfo.Add(info);

         }

     }

这样我们就利用pdfbox收集了pdf文档的字符信息。

c#抽取pdf文档标题（2）的更多相关文章

c#抽取pdf文档标题——前言
由于工作的需要,研究c#抽取pdf文档标题有3个月了.这项工作是一项"伟大而艰巨"的任务.应该是我目前研究工作中最长的一次.我觉得在长时间忙碌后,应该找些时间,把自己的心路历程归纳 ...
c#抽取pdf文档标题（1）
首先看看我的项目结构: 从上面的结果图中,我们可以看出,主要用了两个库:itextsharp.dll 和 pdfbox-1.8.9.dll,dll文件夹存放引用的库,handles文件夹存放抽取的处理 ...
c#抽取pdf文档标题（3）
上一篇介绍了整体流程以及利用库读取pdf内容形成字符集合.这篇着重介绍下,过滤规则,毕竟我们是使用规则过滤,最后得到标题的. 首先看归一化处理,什么是归一化呢?就是使结果始终处于0-1之间(包括0,1 ...
c#抽取pdf文档标题（4）——机器学习以及决策树
我的一位同事告诉我,pdf抽取标题,用机器学习可以完美解决问题,抽取的准确率比较高.于是,我看了一些资料,就动起手来,实践了下. 我主要是根据以往历史块的特征生成一个决策树,然后利用这棵决策树,去判断 ...
Python处理Excel和PDF文档
一.使用Python操作Excel Python来操作Excel文档以及如何利用Python语言的函数和表达式操纵Excel文档中的数据. 虽然微软公司本身提供了一些函数,我们可以使用这些函数操作Ex ...
C#给PDF文档添加文本和图片页眉
页眉常用于显示文档的附加信息,我们可以在页眉中插入文本或者图形,例如,页码.日期.公司徽标.文档标题.文件名或作者名等等.那么我们如何以编程的方式添加页眉呢?今天,这篇文章向大家分享如何使用了免费组件 ...
将w3cplus网站中的文章页面提取并导出为pdf文档
最近在看一些关于CSS3方面的知识,主要是平时看到网页中有很多用CSS3实现的很炫的效果,所以就打算系统的学习一下.在网上找到很多的文章,但都没有一个好的整理性,比较凌乱.昨天看到w3cplus网站中 ...
PDF2SWF转换只有一页的PDF文档，在FlexPaper不显示解决方法
问题:PDF2SWF转换只有一页的PDF文档,在FlexPaper不显示! FlexPaper 与 PDF2SWF 结合是解决在线阅读PDF格式文件的问题的,多页的PDF文件转换可以正常显示,只有一页 ...
【PDF】java使用Itext生成pdf文档--详解
[API接口] 一.Itext简介 API地址:javadoc/index.html:如 D:/MyJAR/原JAR包/PDF/itext-5.5.3/itextpdf-5.5.3-javadoc/ ...

随机推荐

[Ccodeforces 736C] Ostap and Tree - 树形DP
给定一个n个点的树,把其中一些点涂成黑色,使得对于每个点,其最近的黑点的距离不超过K. 树形DP. 设置状态f[i][j]: 当j <= K时: 合法状态,表示i的子树中到根的最近黑点距离为j的 ...
读书简记-java与模式
Oracle创建表时Storage参数具体含义
本文通过图表和实例的阐述在Oracle数据库创建新表时Storage的参数具体含义. 可用于:表空间.回滚段.表.索引.分区.快照.快照日志参数名称缺省值最小值最大值说明 INITIAL 5 ...
ADO.NET通用类库
using System.Data; using System.Data.SqlClient; namespace DataService { public class SQLHelper { pub ...
Hibernate学习（五）lazy属性学习（true和extra区别）
Lazy(懒加载)在hibernate何处使用:1.<class>标签上,可以取值:true/false,(默认值是:true)2.<property>标签上,可以取值:tru ...
java定时器schedule和scheduleAtFixedRate区别
package cn.lonecloud.test; import java.util.Date; import java.util.Timer; import java.util.TimerTask ...
rxjs-流式编程
前言第一次接触rxjs也是因为angular2应用,内置了rxjs的依赖,了解之后发现它的强大,是一个可以代替promise的框架,但是只处理promise的东西有点拿尚方宝剑砍蚊子的意思. 如果我 ...
Yii的数组助手类
获取值用原生PHP从一个对象.数组.或者包含这两者的一个复杂数据结构中获取数据是非常繁琐的. 你首先得使用isset 检查 key 是否存在, 然后如果存在你就获取它,如果不存在, 则提供一个默认返 ...
Java系统监控(淘汰sigar)
Sigar是Hyperic-hq产品的基础包,是Hyperic HQ主要的数据收集组件.它用来从许多平台收集系统和处理信息. 这些平台包括:Linux, Windows, Solaris, AIX, ...
linux清屏命令（clear，reset）
(1)clear 这个命令将会刷新屏幕,本质上只是让终端显示页向后翻了一页,如果向上滚动屏幕还可以看到之前的操作信息.一般都会用这个命令. (2)reset 这个命令将完全刷新终端屏幕,之前的终端输入 ...

c#抽取pdf文档标题（2）

c#抽取pdf文档标题（2）的更多相关文章

随机推荐

热门专题