网络爬虫,是在网上进行数据抓取的程序,使用它能够抓取特定网页的HTML数据.虽然我们利用一些库开发一个爬虫程序,但是使用框架可以大大提高效率,缩短开发时间.Scrapy是一个使用Python编写的,轻量级的,简单轻巧,并且使用起来非常的方便. Scrapy使用了Twisted异步网络库来处理网络通讯.整体架构大致如下: Scrapy主要包括了以下组件: 引擎,用来处理整个系统的数据流处理,触发事务. 调度器,用来接受引擎发过来的请求,压入队列中,并在引擎再次请求的时候返回. 下载器,用于下载网页…