Scrapy 使用 Twisted 这个异步框架来处理网络通信,架构清晰,并且包含了各种中间件接口,可以灵活的完成各种需求. Scrapy 架构 其实之前的教程都有涉及,这里再做个系统介绍 Engine :Scrapy 引擎,即控制中心,负责控制数据流在系统的各个组件中流动,并根据相应动作触发事件:引擎首先从爬虫获取初始request请求(1) Scheduler : 调度器,调度器从引擎接收request请求(2),并存入队列,在需要时再将request请求提供给引擎(3) Downloade…