一.引言: 最近在忙某个商业银行的项目,需要引入外部互联网数据作为参考,作为技术选型阶段的工作,之前已经确定了中文分词工具,下一个话题就是网络爬虫的选择,目标很明确,需要下载一些财经网站的新闻信息,然后进行文本计算.记得上一次碰爬虫还是5年前,时过境迁,不知道爬虫的世界里是否有了新的崛起.比较过一些之后,初步认定Heritrix基本能够满足需要,当然肯定是需要定制的了. 二.版本选择 Heritrix当前版本3.1.0,安装后发现,启动任务时,Windows平台有BDBOpen的错误(具体原因不