Python 爬虫实例（15）爬取汽车之家（汽车授权经销商）

有人给我吹牛逼，说汽车之家反爬很厉害，我不服气，所以就爬取了一下这个网址。

本片博客的目的是重点的分析定向爬虫的过程，希望读者能学会爬虫的分析流程。

一：爬虫的目标：

打开汽车之家的链接：https://www.autohome.com.cn/beijing/，出现如下页面

我们的目标是

点击找车，然后出现如下图

我们要把图中的信息抓取到

二：实现过程

我们选择宝马5系然后点击找车

注意宝马5系的 data-value 是 65

如下图

因为这个网页需要做翻页，我们就点击翻页。然后抓取到了一个url链接的请求方式。

可以判断出来的是 PageIndex 是页面，表示第几页。SeriesId是车系

直接上代码

#-*-coding:utf-8-*-

from common.contest import *

def spider():

    url = 'https://dealer.autohome.com.cn/frame/Car/CarDealerList'

    headers = {

        "Host":"dealer.autohome.com.cn",

        "Connection":"keep-alive",

        "Accept":"*/*",

        "X-Requested-With":"XMLHttpRequest",

        "User-Agent":"Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.186 Safari/537.36",

        "Referer":"https://dealer.autohome.com.cn/frame/car/GetDealerByCar?SeriesId=65&ProvinceId=110000&CityId=110100",

        "Accept-Encoding":"gzip, deflate, br",

        "Accept-Language":"zh-CN,zh;q=0.9",

        "Cookie":"__ah_uuid=B5EFCA0A-C638-43C8-8D4F-1CEB07A1E9BD; fvlid=15275822890176s3cfWZKlL; sessionip=119.61.28.90; area=110199;
 ahpau=1; sessionid=FCACBCDA-A005-4F82-8E88-C27091B3A127%7C%7C2018-05-29+16%3A24%3A54.092%7C%7Cwww.baidu.com; 
sessionvid=6B39A12E-5580-4522-9800-316DA038715A; sessionuid=FCACBCDA-A005-4F82-8E88-C27091B3A127%7C%7C2018-05-29+16%3A24%3A54.092%7C%7Cwww.baidu.com;
 papopclub=0AFEB345FB77A406EFE118CB317CE733; pepopclub=7C16F37F6D8E038ABDFD155664996DA2;
 historybbsName4=c-3170%7C%E5%A5%A5%E8%BF%AAA3; pvidlist=7ab2cb54-f4a0-420c-be56-dff130b41d846:149875:216460:0:1:1036776; 
mpvareaid=2018278; mallsfvi=15275826304503kGG3Qam%7Cwww.autohome.com.cn%7C2018278; mallslvi=2018278%7Cwww.autohome.com.cn%7C15275826304503kGG3Qam; 
Hm_lvt_9924a05a5a75caf05dbbfb51af638b07=1527582690; ahsids=65_2951_3170_4851_59; ahpvno=21; 
pvidchain=101061,101061,101061,2018278,3311273,3311273,3311273,3311273,3311273,3311273;
 ref=www.baidu.com%7C0%7C0%7C0%7C2018-05-29+17%3A09%3A59.013%7C2018-05-29+16%3A24%3A54.092; Hm_lpvt_9924a05a5a75caf05dbbfb51af638b07=1527585001",

    }

    for page in range(1,11):

        data = {

            "BrandId":"",

            "FactoryId":"",

            "SeriesId":"",

            "ProvinceId":"",

            "CityId":"",

            "CountyId":"",

            "PageIndex":str(page),

            "DealerKind":"",

        }

        try:

            result = session.get(url=url,headers=headers,verify=False,params=data).text

        except:

            result = session.get(url=url,headers=headers,verify=False,params=data).text

        print result

spider()

在这里不做解析。

三：总结

有人要问了SeriesId = 65怎么处理，这个很简单，把汽车之家所有的车系都封装成一个字典格式数据就可以啦，CityId，ProvinceId 也是同理。

爬虫的难点不是网站的一些反爬措施，而是一个请求有几十个url链接，能准确的找到自己需要的链接，有用的链接才是最重要的。

Python 爬虫实例（15）爬取汽车之家（汽车授权经销商）的更多相关文章

Python爬虫实例：爬取B站《工作细胞》短评——异步加载信息的爬取
很多网页的信息都是通过异步加载的,本文就举例讨论下此类网页的抓取. <工作细胞>最近比较火,bilibili 上目前的短评已经有17000多条. 先看分析下页面右边 li 标签中的就是短 ...
Python爬虫实例：爬取猫眼电影——破解字体反爬
字体反爬字体反爬也就是自定义字体反爬,通过调用自定义的字体文件来渲染网页中的文字,而网页中的文字不再是文字,而是相应的字体编码,通过复制或者简单的采集是无法采集到编码后的文字内容的. 现在貌似不少网 ...
Python爬虫实例：爬取豆瓣Top250
入门第一个爬虫一般都是爬这个,实在是太简单.用了 requests 和 bs4 库. 1.检查网页元素,提取所需要的信息并保存.这个用 bs4 就可以,前面的文章中已经有详细的用法阐述. 2.找到下一 ...
Python爬虫教程-17-ajax爬取实例（豆瓣电影）
Python爬虫教程-17-ajax爬取实例(豆瓣电影) ajax: 简单的说,就是一段js代码,通过这段代码,可以让页面发送异步的请求,或者向服务器发送一个东西,即和服务器进行交互对于ajax: ...
【转载】教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神
原文:教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神本博文将带领你从入门到精通爬虫框架Scrapy,最终具备爬取任何网页的数据的能力.本文以校花网为例进行爬取,校花网:http:/ ...
python爬虫-基础入门-爬取整个网站《1》
python爬虫-基础入门-爬取整个网站<1> 描述: 使用环境:python2.7.15 ,开发工具:pycharm,现爬取一个网站页面(http://www.baidu.com)所有数 ...
Python爬虫实战之爬取百度贴吧帖子
大家好,上次我们实验了爬取了糗事百科的段子,那么这次我们来尝试一下爬取百度贴吧的帖子.与上一篇不同的是,这次我们需要用到文件的相关操作. 本篇目标对百度贴吧的任意帖子进行抓取指定是否只抓取楼主发帖 ...
python爬虫-基础入门-爬取整个网站《3》
python爬虫-基础入门-爬取整个网站<3> 描述: 前两章粗略的讲述了python2.python3爬取整个网站,这章节简单的记录一下python2.python3的区别 python ...
python爬虫-基础入门-爬取整个网站《2》
python爬虫-基础入门-爬取整个网站<2> 描述: 开场白已在<python爬虫-基础入门-爬取整个网站<1>>中描述过了,这里不在描述,只附上 python3 ...
Python 爬虫入门之爬取妹子图
Python 爬虫入门之爬取妹子图来源:李英杰链接: https://segmentfault.com/a/1190000015798452 听说你写代码没动力?本文就给你动力,爬取妹子图.如果 ...

随机推荐

微信小程序 - 日期(起止)选择器组件
2019-01-03 : 修复了日期day-1,新增了年月日(除去时分秒),删除了不必要的touchmove 新增: column: ""(年月日) 配置: pickerConfi ...
微信小程序 - 动态背景图片实现
很简单-就两步 wxml(遍历style的background-image路径即可) wxss(.ab)
git ingore添加忽略文件无较的解决方法
一.启动Git Bash并切换到项目目录下二.执行下列语句: git rm -r --cached . git add . git commit -m 'update .gitignore' 三.O ...
如何处理Android中的防缓冲区溢出技术
[51CTO专稿]本文将具体介绍Android中的防缓冲区溢出技术的来龙去脉. 1.什么是ASLR? ASLR(Address space layout randomization)是一种针对缓冲区溢 ...
C#中e.Cancel，e.Handled的区别与应用
首先并不是每个事件的e参数都有上述两个属性. e.Cancel:获取或设置指示是否应取消事件的值:e.Handled:获取或设置一个值,该值指示是否处理过此事件. 下面说说比较常见的场景: 1)e.c ...
minimum-path-sum-动态规划
Given a m x n grid filled with non-negative numbers, find a path from top left to bottom right which ...
SCD Type2 in ODI
缓慢变化维(Slowly changing Dimensions)指的是维表中的维度字段值会随着时间或业务调整,而在后续的分析中,历史数据仍然要使用旧的维度值,新的数据会使用当前维度值.在数据仓库建设 ...
java 浮点运算
CreateTime--2017年12月1日11:35:00 Author:Marydon java 浮点类型(float.double)间的运算工具类 /** * 进行BigDecimal对象的 ...
eclipse debug模式下总是自动跳到ThreadPoolExecutor.java类
1.情景展示使用eclipse,debug模式运行项目时,总是会调用这个ThreadPoolExecutor.java类,明明没有打断点却自动停止运行. 2.原因分析在eclipse中,默认是 ...
group by 分组
group by 分组:一般情况下group需与统计函数(聚合函数)一起使用才有意义 mysql中的五种统计函数: ()max:求最大值 select max(goods_price) from go ...

Python 爬虫实例（15） 爬取 汽车之家（汽车授权经销商）

Python 爬虫实例（15） 爬取 汽车之家（汽车授权经销商）的更多相关文章

随机推荐

热门专题

Python 爬虫实例（15）爬取汽车之家（汽车授权经销商）

Python 爬虫实例（15）爬取汽车之家（汽车授权经销商）的更多相关文章