最近在做网页信息提取这方面的,由于没接触过这系列的知识点,所以逛博客,看文档~~看着finallyly大神的博文和文档,边看边学习边总结~~ 对网站页面进行信息提取,需要进行页面解析,解析的方法有以下几种: 1.利用HTML标记的分布规律进行解析 2.利用HTML标记间的关系进行解析 3.利用页面的视觉特征进行解析 需要人工不断地总结调整规则,需要的规则往往比较多,一条规则的加入会对已经成功解析的网页产生影响.因此,保持规则集的一致性是一大难点. 4.利用TABLE标记的布局特性进行解析.比较常…