缘起 写了多年的程序,鲜有产出物,于是最近打算做个不可说的东西来祭奠逝去的青春.数据,是一个程序的起点,我们没有数以亿计的用户,无法让活跃用户给我们产生数据,那就只能去别人的站点上借点数据了.这个功能一般我们称之为爬虫. 框架 首先我们确认语言选用Java,接下去是框架选择,因为是自己玩的项目,也不需要去分析太多的优劣,我们要的是一个比较简单快捷的方案,于是就拍脑袋敲定web magic了. webmagic 的目标 一般来说,一个爬虫包括几个部分: 页面下载 页面下载是一个爬虫的基础.下载页面