以前学习写爬虫程序时候,我没有系统地学习爬虫最基本的模块框架,只是实现自己的目标而写出来的,最近学习基础的爬虫,但含有完整的结构,大型爬虫含有的基础模块,此项目也有,“麻雀虽小,五脏俱全”,只是没有考虑优化和稳健性问题. 爬虫框架 爬虫框架包括这五大模块,简单介绍作用:1.爬虫调度器:协调其他四大模块工作:2.URL管理器:就是管理提供爬取的链接,分为已爬取URL集合和未爬取URL集合:3.html下载器:下载URL的整个html网页:4.html解析器:将下载的网页进行解析,获得有效数据:5.…