我的一位同事告诉我,pdf抽取标题,用机器学习可以完美解决问题,抽取的准确率比较高.于是,我看了一些资料,就动起手来,实践了下. 我主要是根据以往历史块的特征生成一个决策树,然后利用这棵决策树,去判断一个新的块到底是不是标题.理论上,历史块的数量越庞大,那么结果越准确.其实经过实践不是这样的,我觉得影响结果判断的因素越少,而且库的数量达到一定数量后,判断越准确.这个记录块信息的历史库,就是供计算机学习的原料. 首先看下,如何形成一个决策树? private static DecisionTree