好久没写博客了,前阵子项目忙着上线,现在有点空闲,就把最近写的一个爬虫和大家分享下,统计结果放在了自己买的阿里云服务器上(点此查看效果),效果如下: 程序是在工作之余写的,用了java 的webmgic 框架,这是国内黄亿华大师的作品,框架的核心思想借鉴了python 的scrapy 爬虫.之前也有用scrapy 抓取过一些数据,但这次想尝试下新的东西,结果很赞. 简单来说,webmgic 和scrapy 的 核心分布在4个部分: Downloader:下载器,一心一意从给的的url中下载网页…