Scrapy是一个异步处理框架,是纯Python实现的爬虫框架,其架构清晰,模块之间的耦合程度低,可拓展性强,可以灵活完成各种需求.我们只需要定制几个模块就可以轻松实现一个爬虫. 1.架构 Scrapy Engine,引擎,负责整个系统的数据流处理.触发事务,是整个框架的核心. Item,项目,它定义了爬取结果的数据结构,爬取的数据会被赋值成Item对象. Scheduler,调度器,接受引擎发送过来的请求,并将其加入到队列之中,在引擎再次请求时将请求提供给引擎. Downloader,下载器…