Robots.txt是一种专门用于搜索引擎网络爬虫的文件,当构造一个网站时,如果作者希望该网站的内容被搜索引擎收录,就可以在网站中创建一个纯文本文件robots.txt,在这个文件中,声明该网站不想被robot访问的部分.这样,该网站的部分或全部内容就可以不被搜索引擎收录了,或者指定搜索引擎只收录指定的内容. Heritrix在其说明文档中,表明它是一个完全遵守robots.txt协议的网络爬虫.这一点固然在宣传上起到了一定的作用.但是,在实际的网页采集过程中,这并不是一种最好的作法.因为大部分…