上篇文章当中实现了单任务版爬虫. 那么这篇文章就大概说下,如何在上一个版本中进行升级改造,使之成为一个多任务版本的爬虫.加快我们爬取的速度. 话不多说,先看图: 其实呢,实现方法就是加了一个scheduler的模块,所有的request都由scheduler去交给worker. 另外呢,这里的worker,也就是上文提到过的fetcher和parser的一个过程. worker的数量由我们自己在调用engine的时候传入. 每一个worker都是一个groutine.这样可以加快抓取速度,尤其是…