本文是Heritrix的使用的高级篇,针对对Heritrix已经能够运行的码农朋友们! 我们在抓取网页的时候,网页的链接中往往会包含有js.css.图片.视频等文件,第一次执行抓取任务的时候,许多农民朋友们可能会发现抓取速度令人着急,可能是由于抓取了太多的不必要的数据文件,尤其是视频文件,少则几十兆,多则上百兆,这严重影响了我们的抓取的速度,还有一些缓存文件,配置文件等等. 那么如何才能做到只抓取html网页呢?(这里暂且不讨论抓取抓取指定域名的html网页,在之后的文章中可能会列出来!) 1.…