scrapy如果抓取太频繁了,就被被封IP,目前有以下主要策略保证不会被封: 策略1:设置download_delay下载延迟,数字设置为5秒,越大越安全 策略2:禁止Cookie,某些网站会通过Cookie识别用户身份,禁用后使得服务器无法识别爬虫轨迹 策略3:使用user agent池.也就是每次发送的时候随机从池中选择不一样的浏览器头信息,防止暴露爬虫身份 策略4:使用IP池,这个需要大量的IP资源,貌似还达不到这个要求 策略5:分布式爬取,这个是针对大型爬虫系统的,对目前而言我们还用不到