Nutch 基本情况 Nutch 是 Apache 基金会的一个开源项目,它原本是开源文件索引框架 Lucene 项目的一个子项目,后来渐渐发展成长为一个独立的开源项目.它基于 Java 开发,基于 Lucene 框架,提供 Web 网页爬虫功能.另外很吸引人的一点在于,它提供了一种插件框架,使得其对各种网页内容的解析.各种数据的采集.查询.集群.过滤等功能能够方便的进行扩展,正是由于有此框架,使得 Nutch 的插件开发非常容易,第三方的插件也层出不穷,极大的增强了 Nutch 的功能和声誉.…