c#抽取pdf文档标题(1)】的更多相关文章

由于工作的需要,研究c#抽取pdf文档标题有3个月了.这项工作是一项"伟大而艰巨"的任务.应该是我目前研究工作中最长的一次.我觉得在长时间忙碌后,应该找些时间,把自己的心路历程归纳整理,倾诉给读者,使自己的心回归,重新回归自然.平静的状态.每一次的研究工作,说实话,都很累,犹如爬山.在到达山顶的那一刹那,也许你很快乐,也许你即将面临征服另一座山,问题是,我们知道自己迟早是要回归大地的.人生不是也是如此吗?我可以肯定地说,我们来源于宇宙,终将归于宇宙,至于我们从宇宙的何处而来,我不知道,…
首先看看我的项目结构: 从上面的结果图中,我们可以看出,主要用了两个库:itextsharp.dll 和 pdfbox-1.8.9.dll,dll文件夹存放引用的库,handles文件夹存放抽取的处理代码,lib文件夹中,相当于数据库中的DBHelp类的作用.model文件夹就不用介绍了,大家都知道. 我们从大的逻辑开始介绍,TitleHandle类中有一个方法: 从此方法可以看出,它接收两个参数:block和isTrainModel,返回 HandleResult类型. 我们先来看看Block…
上一篇介绍了整体流程以及利用库读取pdf内容形成字符集合.这篇着重介绍下,过滤规则,毕竟我们是使用规则过滤,最后得到标题的. 首先看归一化处理,什么是归一化呢?就是使结果始终处于0-1之间(包括0,1). private static double GetMark(BlockInfo block, double maxHeight, double maxWidth, double maxYSize, double maxXSize, double maxSpace) { ; ) result +…
public class IETitle { public static List<WordInfo> WordsInfo = new List<WordInfo>(); private static string pdfcontent; public static HandleResult GetTitle(string path, string realtitle) { WordsInfo.Clear(); string content = string.Empty; try…
我的一位同事告诉我,pdf抽取标题,用机器学习可以完美解决问题,抽取的准确率比较高.于是,我看了一些资料,就动起手来,实践了下. 我主要是根据以往历史块的特征生成一个决策树,然后利用这棵决策树,去判断一个新的块到底是不是标题.理论上,历史块的数量越庞大,那么结果越准确.其实经过实践不是这样的,我觉得影响结果判断的因素越少,而且库的数量达到一定数量后,判断越准确.这个记录块信息的历史库,就是供计算机学习的原料. 首先看下,如何形成一个决策树? private static DecisionTree…
一.使用Python操作Excel Python来操作Excel文档以及如何利用Python语言的函数和表达式操纵Excel文档中的数据. 虽然微软公司本身提供了一些函数,我们可以使用这些函数操作Excel文档.但是,使用Excel自带的函数受限于Excel软件的功能限制.换句话说,只有微软提供了某种功能,我们才能使用相应的功能解决问题.如果微软没有提供相应的函数应对一个复杂的功能,那么,我们只能进行重复性操作.使用Python语言操作Excel则不然,我们可以灵活应用Python语言的所有功能…
页眉常用于显示文档的附加信息,我们可以在页眉中插入文本或者图形,例如,页码.日期.公司徽标.文档标题.文件名或作者名等等.那么我们如何以编程的方式添加页眉呢?今天,这篇文章向大家分享如何使用了免费组件Free Spire.PDF给PDF文档添加文本和图片页眉.这个组件提供了一些方法,可以帮助我们快速方便地实现此目的. 添加页眉步骤: 首先,创建一个Visual C#控制台项目,添加组件引用并使用以下命名空间. using System; using System.Drawing; using S…
最近在看一些关于CSS3方面的知识,主要是平时看到网页中有很多用CSS3实现的很炫的效果,所以就打算系统的学习一下.在网上找到很多的文章,但都没有一个好的整理性,比较凌乱.昨天看到w3cplus网站中关于CSS3的一些文章,觉得讲解的比较细,所以就决定以此作为学习的模板,一步步开始. 平时上下班在地铁上经常是拿着手机看小说新闻之类的,考虑到在手机端直接访问这些网页肯定会耗费很大的流量,所以最好是将这些文章下载下来放在手机里看,比如保存成图片或pdf当然是最好的选择. 之前曾在园子里看到某前端高手…
问题:PDF2SWF转换只有一页的PDF文档,在FlexPaper不显示! FlexPaper 与 PDF2SWF 结合是解决在线阅读PDF格式文件的问题的,多页的PDF文件转换可以正常显示,只有一页的PDF文件不能显示,我下了FlexPaper.PDF2SWF  N个版本都不行... 解决方法:在执行的命令后面加上“/usr/local/swftools/bin/pdf2swf  -T 9”转换成flash 9 格式即可解决~~ 知识点: SWFTools 是一组用来处理 Flash 的 sw…
[API接口]  一.Itext简介 API地址:javadoc/index.html:如 D:/MyJAR/原JAR包/PDF/itext-5.5.3/itextpdf-5.5.3-javadoc/index.html 功能:a Free Java-PDF: 中文支持:iTextAsian.jar,现在高版本Itext不支持语言包. 使用的版本:iTextpdf-5.0.0.jar, iTextAsian-2.0.jar,或者不用 iTextAsian-2.0.jar,直接使用ttf或ttc字…