爬取流程 Spider类定义如何爬取指定的一个或多个网站,包括是否要跟进网页里的链接和如何提取网页内容中的数据. 爬取的过程是类似以下步骤的循环: 1.通过指定的初始URL初始化Request,并指定回调函数.当Request下载完后,生成Response作为参数传给回调函数.初始的Request是通过start_requests()读取start_urls中的URL来生成的,回调函数为parse(). 2.在回调函数中分析Response的内容,返回Item对象或者Request或包含二者的可…