pyspider是好东西,非常稳定,很久很久以前架了一个,心冷了一段时间,但人家尽忠职守地持续运行,一直在抓取东西. 结合chrome,抓取代码简直不要太好写,没想到,最头大的,还是它的调度.明明感觉没问题的,就是不运行.在这个上面花的时间,比页面解析的要多.所以,把近期的学习心得记录下来: 第一.控制台的含义.rate/burst控制并发和速度基本不用管.progress现实近期调用次数可以参考一下.我用得最多的是左上角的Recent Active Tasks,可以查看究竟运行了几个爬虫任务(…