题记:一步一坑,且行且珍惜 最近接到任务,要利用nutch去抓取公司内部系统的文章,可是需要登录才能抓到.对于一个做.net,不熟悉java,不知道hadoop,很少接触linux的我,这个过程真是艰难且痛苦的,盲人摸象搬的折腾出来了,但是我对hadoop还是没了解.这个东西在网上真的很难查到,我也是自己试验,网上零碎的片段拼起来的.有些在网上可以随便找打的,我就不详细说明了,我只说明网上不好查到的内容. 本文是在假设你已经会简单使用nutch的条件下写的,如果需要基础配置,网上还是有较多的.…