测试环境: win10,单机爬取,scrapy1.5.0,python3.6.4,mongodb,Robo 3T 其他准备: 代理池:测试环境就没有用搭建的flask抓代理,因为我找到的几个免费网站有效ip不够多,因此从xxx网站批量获取了800多个免费https代理,然后开线程池测试访问58同城网站,将有效ip保存到json文本中,在scrapy代码加proxy中间件,每次从json中random一个代理; 请求头:网上搜集各种网站的User-Agent,在scrapy中加UserAgent中