本文仅供学习交流使用,如侵立删!联系方式及demo下载见文末

汽车之家2021 全系车型参数(包含历史停售车型)


2021.10.21更新

  • 增加参数:电动扰流板、无框设计车门、隐藏电动门把手、自动驾驶芯片、芯片总算力...


2021.8.12更新

  • 最新官网数据(共57380款车型数据)

2021.7.8更新

  • 最新官网数据(新增或修改共1098款车型数据)


打包成了采集器,需要的自行下载。


2021.5.17更新

  • 更新最新官网数据:新增821款车型参数及图片


2021.4.14更新

  • 最新官网数据
  • 更改解析,保存更多参数
  • 增加:logo、车型图片






2021.3.7更新最新数据


2021.1.29更新

全系车辆十年保值率数据


2021.1.17更新

汽车之家全系车型图片:576149张原图(50.5G)


2021.1.8更新

增加:品牌LOGO


2021.1.6更新

更新:最新2021官网数据




2020.5.9更新

增加:选装包、外观颜色、内饰颜色参数

修复:多行数据存储不完整问题



2020.4.15更新

更新最新官网数据


2020.3.22更新

新增:途虎养车 车型、保养 数据

https://blog.csdn.net/qq_38154948/article/details/104700905


2020.1.9更新

增加:品牌首字母,品牌ID,品牌名称,车系ID,车系名称,车型ID,车型名称 字段数据




2019.12.25更新

很多网友留言说需要车标logo,果断满足需求

1. 车标logo页面

只需要车标logo和品牌参数,从移动端页面直接获取比较方便

https://car.m.autohome.com.cn/

2.解析车标图片url和品牌名称

response = requests.get("https://car.m.autohome.com.cn/")
response.encoding = 'UTF-8'
html = etree.HTML(response.text)
items = html.xpath('//*[@class="item"]')
for item in items:
logo_url = item.xpath('./img/@data-src')
if not logo_url:
continue
text = item.xpath('./span')[0].text
downLoadImage(text, logo_url[0])

3.根据url下载图片

def downLoadImage(fileName, downLoadUrl):
r = requests.get(downLoadUrl)
fileName = fileName + ".jpg"
print("正在下载 " + fileName)
with open("img/" + fileName, 'wb') as f:
f.write(r.content)

4.运行结果


2019.12.17更新

闲来无事研究了一下*车之家页面class 字体混淆



思路:

  1. 获取车型参数页面源码
  2. 解析车型混淆字体js数据
  3. 解析车型参数json数据
  4. 匹配样式文件与json数据
  5. 将混淆后的字体替换为正常字体

效果:



途中碰到问题:

  • 历史车型的获取
  • 全部参数的解析
  • 数据错位问题

2019.10.12更新

有人反馈数据不全刚抽出时间看了一下,原来之前只取了在售车型没有获取停售的车型数据,本次更新后数据为国内在售(停售)全系车型数据包含历史数据


2019.9.29更新

闲来无事把脚本更新了一下用selenium,获取了全系全车型详细参数,主要这次包含了停售车型数据,所有历史车型数据


所有车型数据



分析发现所有车型数据在一个js文件中:

ps:当然也可通过解析网页 xpath提取,或通过接口,获取方式有很多种,此文主要需要seriesId 车型ID 这一项数据 为获取车型价格做准备 顾用此方法。

 def get_model(self):
"""获取所有车型数据"""
# 所有车型js文件
url = '~~删除线格式~~ '
response = self._parse_url(url)
# GBK解码
content = response.content.decode('GBK')
# 剔除开头和结尾处多余字符 转换为json
content = content.replace('var listCompare$100= ', '').replace(';', '')
content = json.loads(content)
for i in content:
# 品牌首字母,名称,车系列表
brand_l, brand_n, brand_list, = i['L'], i['N'], i['List']
for q in brand_list:
# 车系名称,车型列表
car_l, car_list = q['N'], q['List']
for t in car_list:
# 车型ID, 车型名称
model_l = t['I']
model_n = t['N']
yield brand_l, brand_n, car_l, model_n, model_l

获取价格



价格接口需要两个参数:dealerId 经销商ID 和 seriesId 车型ID



经销商接口需要两个参数:seriesId 车型ID 和 cityId 区域代码

    def get_price(self, dealerId, seriesId):
"""获取价格"""
url = ‘~~删除线格式~~ ’
# 根据经销商ID 和 车型ID 获取车型价格
response = self._parse_url(url)
# 无数据跳过
if not response.json()['result']['list']:
print('暂无经销商信息')
return
# 获取经销商信息 主要取经销商ID 用来获取价格
contents = response.json()['result']['list']
for con in contents:
# 汽车型号
SpecName = con['SpecName']
# 指导价
OriginalPrice = con['OriginalPrice']
# 参考价
Price = con['Price']
print('{}数据请求中'.format(SpecName))
yield SpecName, OriginalPrice, Price


数据DEMO

链接:https://pan.baidu.com/s/1aQMR_2ix_ANK7DkujxaAwg

提取码:cmwi

如需完整源码或完整数据资料联系我


本文仅供学习交流使用,如侵立删!
企鹅 、WX: 1033383881

Python 汽车之家 全系车型参数(包含历史停售车型) 最全的更多相关文章

  1. Python 车主之家全系车型(包含历史停售车型)配置参数爬虫

    本文仅供学习交流使用,如侵立删!demo下载见文末 车主之家全系车型(包含历史停售车型)配置参数爬虫 先上效果图 环境: win10 ,Contos7.4 python3.9.4 pycharm202 ...

  2. nodejs爬虫——汽车之家所有车型数据

    应用介绍 项目Github地址:https://github.com/iNuanfeng/node-spider/ nodejs爬虫,爬取汽车之家(http://www.autohome.com.cn ...

  3. Python 爬取途虎养车 全系车型 轮胎 保养 数据

    Python 爬取途虎养车 全系车型 轮胎 保养 数据 2021.7.27 更新 增加标题.发布时间参数 demo文末自行下载,需要完整数据私聊我 2021.2.19 更新 增加大保养数据 2020. ...

  4. python 爬虫 汽车之家车辆参数反爬

    水平有限,仅供参考. 如图所示,汽车之家的车辆详情里的数据做了反爬对策,数据被CSS伪类替换. 观察 Sources 发现数据就在当前页面. 发现若干条进行CSS替换的js 继续深入此JS 知道了数据 ...

  5. Python爬虫——使用 lxml 解析器爬取汽车之家二手车信息

    本次爬虫的目标是汽车之家的二手车销售信息,范围是全国,不过很可惜,汽车之家只显示100页信息,每页48条,也就是说最多只能够爬取4800条信息. 由于这次爬虫的主要目的是使用lxml解析器,所以在信息 ...

  6. Python 爬取汽车之家口碑数据

    本文仅供学习交流使用,如侵立删!联系方式见文末 汽车之家口碑数据 2021.8.3 更新 增加用户信息参数.认证车辆信息等 2021.3.24 更新 更新最新数据接口 2020.12.25 更新 添加 ...

  7. Python爬虫入门教程 64-100 反爬教科书级别的网站-汽车之家,字体反爬之二

    说说这个网站 汽车之家,反爬神一般的存在,字体反爬的鼻祖网站,这个网站的开发团队,一定擅长前端吧,2019年4月19日开始写这篇博客,不保证这个代码可以存活到月底,希望后来爬虫coder,继续和汽车之 ...

  8. python3 爬取汽车之家所有车型数据操作步骤(更新版)

    题记: 互联网上关于使用python3去爬取汽车之家的汽车数据(主要是汽车基本参数,配置参数,颜色参数,内饰参数)的教程已经非常多了,但大体的方案分两种: 1.解析出汽车之家某个车型的网页,然后正则表 ...

  9. python爬虫——汽车之家数据

    相信很多买车的朋友,首先会在网上查资料,对比车型价格等,首选就是"汽车之家",于是,今天我就给大家扒一扒汽车之家的数据: 一.汽车价格: 首先获取的数据是各款汽车名称.价格范围以及 ...

随机推荐

  1. typora的下载和基本的使用

    目录 typora的下载和基本的使用 typora的下载 typora基本的使用 选择自己喜爱的主题 创建标题 进入编程环境 改变文本样式 插入链接 插入图片 有序列表 无序列表 创建表格 单选框 表 ...

  2. 5分钟快速搭建一个springboot的项目

      现在开发中90%的人都在使用springboot进行开发,你有没有这样的苦恼,如果让你新建一个springboot开发环境的项目,总是很苦恼,需要花费很长时间去调试.今天来分享下如何快速搭建. 一 ...

  3. 记一次IIS网站启动不了的问题排查

    今天清理了下机器中的IIS网站,将很久不用的网站都删除. 因为需要删除的比较多,正在使用的很少,就将网站全部删除了,然后准备重新添加需要用的. 在添加了网站后,点击启动按钮,发现网站启动不了,因为网站 ...

  4. python3在使用类基础时,遇到错误TypeError: module.**init**() takes at most 2 arguments (3 given)

    python3在使用类基础时,遇到错误TypeError: module.init() takes at most 2 arguments (3 given) 1.原因:直接导入的py文件,而没有导入 ...

  5. ROS基本程序实现

    0.前言 现在介绍ROS基本程序实现的教程有很多,步骤无非就是建工作空间,编译,创建功能包,创建文件和修改CMakeList,之后再编译.运行程序这几步.但是这些教程中很多在文件夹切换的很混乱,导致会 ...

  6. 前端2CSS2

    内容概要 伪元素选择器 选择器优先级 字体样式 文字属性 背景属性 display属性 边框属性 盒子模型 浮动(重要) 解决浮动造成的影响 内容详情 伪元素选择器 """ ...

  7. 前端1HTML

    内容概要 前端简介 HTTP简介 HTTP协议 HTML简介 head内常见标签 body内基本标签 body内特殊符号 body内常见标签 列表标签 表格标签 内容详情 前端简介 # 1.什么是前端 ...

  8. .Net CLR GC动态获取函数头地址,C++的骚操作(慎入)

    前言: 太懒了,从没有在这里正儿八经的写过文章.看到一些人的高产,真是惭愧.决定稍微变得不那么懒.如有疏漏,请指正. .net的GC都谈的很多了,本篇主要是剑走偏锋,聊聊一些个人认为较为核心的细节方面 ...

  9. 实现领域驱动设计 - 使用ABP框架 - 创建实体

    用例演示 - 创建实体 本节将演示一些示例用例并讨论可选场景. 创建实体 从实体/聚合根类创建对象是实体生命周期的第一步.聚合/聚合根规则和最佳实践部分建议为Entity类创建一个主构造函数,以保证创 ...

  10. hs-black 杂题选讲

    [POI2011]OKR-Periodicity 考虑递归地构造,设 \(\text{solve(s)}\) 表示字典序最小的,\(\text{border}\) 集合和 \(S\) 的 \(\tex ...