今天无事写一遍关于爬虫对计算机的影响,主要是给小白同学普及一下爬虫的基础知识. 在我们写爬虫的时候,首先会想到开多线程,如果使用的语言是Python,很不幸,因为Python存在 GIL,在任何时候,CPU内只有一条进程在运行,所以Python的多线程并不能大大的提高爬虫的速度,只能部分提高爬取效率,为何呢?因为爬虫是偏向于io的,需要用到CPU的只是解析的时候.网络请求需要等待敌方服务器,往自己数据库插入数据需要等待自己的服务器io.有没有一个好的方法实现爬虫的并发下载呢? 答案是 : 有,…