本次爬虫的目标是汽车之家的二手车销售信息,范围是全国,不过很可惜,汽车之家只显示100页信息,每页48条,也就是说最多只能够爬取4800条信息. 由于这次爬虫的主要目的是使用lxml解析器,所以在信息的查找上面完全只会涉及lxml中选择器的用法,虽然lxml可以同时使用CSS选择器和Xpath选择器,但是为了更加突出效果,暂且只使用Xpath. 爬虫老套路,分为3个步骤: 分析网页信息构成,找到切入点 获取网页,提取有效信息 储存信息 网页分析 网页结构分析的一般思路是先找到第一个需要爬取的链接