最近接手一个新项目,爬亚马逊分类.商品数据.记得大学的时候,自己瞎玩,写过一个爬有缘网数据的程序,那个时候没有考虑那么多,写的还是单线程,因为网站没有反爬,就不停的一直请求,记得放到实验室电脑上一天,跑了30w+的数据.然后当前晚上有缘网网站显示维护中.... 毕竟小打小闹,没有真正的写过爬虫.就翻别人博客了解了下爬虫所用到的技术.技巧.套路.然后就翻到这个老哥写的博客, 虽然语言是有点嚣张,但是我还是比较认同的 哈哈哈哈. 下面从爬虫涉及的几任务调度.数据去重.数据解析.并发控制.断点续爬.代