Python 爬取途虎养车 全系车型 轮胎 保养 数据
Python 爬取途虎养车 全系车型 轮胎 保养 数据
2021.7.27 更新
增加标题、发布时间参数
demo文末自行下载,需要完整数据私聊我
2021.2.19 更新
增加大保养数据
2020.12.17 更新
更新最新官网数据:116629条
2020.8.6 更新
新增车型参数
2020.5.30 更新
新增轮胎数据
1.获取全系车型品牌名称
def get_brand(self):
"""
获取品牌名称,用来拼接车型列表url
:return:
"""
url = 'https://by.tuhu.cn/baoyang'
self.driver.get(url)
letters = self.wait.until(EC.presence_of_all_elements_located((By.XPATH, '//div[@id="div2"]/ul/li')))
for i in range(1, len(letters)):
letters[i].click()
brands = self.wait.until(EC.presence_of_all_elements_located((By.XPATH, '//div[@id="CarBrands"]/ul/li')))
brands = [i.get_attribute('data-brand') for i in brands]
print(brands)
for u in brands:
with open('品牌名称.txt', 'a+', encoding='utf-8') as f:
f.write(u)
f.write('\n')
2.获取车型信息
@retry(stop_max_attempt_number=3)
def get_model(self, cond_brand):
"""
获取车型列表, 用来拼接排量url
:return:
"""
url = f'https://item.tuhu.cn/Car/SelOneBrand?callback=__GetCarBrands__&Brand={cond_brand}'
res = requests.get(url, headers=self.headers, timeout=5)
content = res.text.replace('__GetCarBrands__(', '').strip(')')
content = json.loads(content)
models = content['OneBrand']
for model in models:
try:
first = model['Brand'].split(' ')[0] # 首字母
brand = model['Brand'].split(' ')[2] # 品牌
BrandType = model['BrandType'] # 车厂
CarName = model['CarName'] # 型号
ProductID = model['ProductID'] # 型号ID 获取车型详细信息用
Tires = model['Tires'] # 轮胎尺寸
print(f'{first} {brand} {BrandType} {CarName} {ProductID} {Tires}')
# 首字母 品牌 车厂 型号 型号ID 轮胎尺寸
yield first, brand, BrandType, CarName, ProductID, Tires
except Exception as e:
print(f'解析车型数据错误:{e}')
continue
3.获取排量信息
@retry(stop_max_attempt_number=3)
def get_displacement(self, ProductID):
"""
获取排量, 用来拼接年份url
:return:
"""
url = f'https://item.tuhu.cn/Car/SelectVehicle?callback=__GetCarBrands__&VehicleID={ProductID}'
res = requests.get(url, headers=self.headers, timeout=5)
content = res.text.replace('__GetCarBrands__(', '').strip(')')
content = json.loads(content)
displas = content['PaiLiang']
for i in displas:
displa = i['Value'] # 排量
yield displa
4.获取年份信息
@retry(stop_max_attempt_number=3)
def get_year(self, ProductID, displa):
"""
获取年份, 用来拼接保养信息url
:return:
"""
url = f'https://item.tuhu.cn/Car/SelectVehicle?callback=__GetCarBrands__&VehicleID={ProductID}&PaiLiang={displa}'
res = requests.get(url, headers=self.headers, timeout=5)
content = res.text.replace('__GetCarBrands__(', '').strip(')')
content = json.loads(content)
years = content['Nian']
for i in years:
year = i['Value'] # 年份
yield year
5.获取保养信息
def get_maintenance(self, url):
session = HTMLSession()
r = session.get(url, verify=True)
try:
r.html.render(retries=5)
dosage = r.html.xpath('//p[@class="pack_tt2"]', first=True)
if dosage:
dosage = dosage.text.strip('(').strip(')')
else:
dosage = '官方暂无数据'
engine_model = r.html.xpath('//div[@class="pack_biaoti"]')
if engine_model:
engine_model = [i.text for i in engine_model]
motor_oil = engine_model[0].split('\n')[0]
level = engine_model[0].split('\n')[1] if len(engine_model[0].split('\n')) > 1 else '暂无数据'
machine_filter = engine_model[-1]
else:
motor_oil = level = machine_filter = '官方暂无数据'
prices = r.html.xpath('//div[@class="pck_price"]')
if prices:
prices = [i.text for i in prices]
motor_oil_money = prices[0]
machine_filter_money = prices[-1]
else:
motor_oil_money = machine_filter_money = '官方暂无数据'
session.close()
return dosage, motor_oil, motor_oil_money, level, machine_filter, machine_filter_money
except Exception as e:
session.close()
print(f'{url}数据获取失败 原因:{e}!!!')
with open('错误记录.txt', 'a+', encoding='utf-8') as f:
f.write(url)
f.write('\n')
6.数据保存
def save_xls(self, data):
"""
保存数据
data : 字典格式 必须和表头长度一样
:return:
"""
path = os.path.abspath('.') + r'/全系车型机油数据.xls'
if not os.path.exists(path):
Header = ['首字母', '品牌', '厂商', '型号', '型号ID', '排量', '年份', '轮胎尺寸', '机油容量',
'机油型号', '机油价格', '合成级别', '机滤型号', '机滤价格', '获取时间']
df = pd.DataFrame(columns=Header)
else:
df_read = pd.read_excel(path)
df = pd.DataFrame(df_read)
new = pd.DataFrame(data, index=[1])
df = df.append(new, ignore_index=True)
df.to_excel(path, sheet_name='data', index=False, header=True)
ContOS服务器相关
- centos后台运行Python
nohup python -u test.py > test.log 2>&1 &
nohup 不挂起的意思
-u 代表程序不启用缓存,也就是把输出直接放到log中,没这个参数的话,log文件的生成会有 延迟
test.log 将输出日志保存到这个log中
2>1 2与>结合代表错误重定向,而1则代表错误重定向到一个文件1,而不代表标准输出;
2>&1 换成2>&1,&与1结合就代表标准输出了,就变成错误重定向到标准输出.
& 最后一个& ,代表该命令在后台执行
*命令运行后会有提示,示例:
[1] 2880
代表进程2880中运行。
*查看nohub命令下运行的所有后台进程:
jobs
*查看后台运行的所有进程:
ps -aux
*查看后台运行的所有python 进程:
ps aux |grep python
或者
ps -ef | grep python
- 杀死进程
kill -9 pid # 根据进程id杀死进程
sudo kill -9 $(pidof 进程名关键字) # 根据程序名杀死进程
踏坑:
- URL请求数据时需先编码 from urllib.parse import quote
- 保养页面分析后发现是js加载后数据,直接请求获取不到数据,使用requests_html模块二次加载页面后可正常返回数据,requests_html首次安装会自动下载chrome
- ContOS启动Chromeium 报错缺少 libXcomposite.so.1
错误提示:/root/.local/share/pyppeteer/local-chromium/575458/chrome-linux/chrome: error while loading shared libraries: libXcomposite.so.1: cannot open shared object file: No such file or directory
原因:这是由于是最小化安装的centos,缺少相关的依赖
解决:yum install libXcomposite libXcursor libXi libXtst libXScrnSaver libXrandr atk at-spi2-atk gtk3 -y - ContOS 报错:[Errno 12] Cannot allocate memory!!! 内存不足
echo 3 > /proc/sys/vm/drop_caches # 释放内存缓存数据
os.system('echo 3 > /proc/sys/vm/drop_caches') # python 调用系统命令 - CentOS查看 占用 内存 最多的 进程
ps -aux | sort -k4nr | head 5 # 查看内存使用最多的5个进程
或者
top (然后按下M,注意大写)
ps -aux | sort -k3nr | head 5 # 查看CPU使用最多的5个进程
或者
top (然后按下P,注意大写)
demo下载:
https://pan.baidu.com/s/1aF0dGdr0XB_zskZoAh2s5g
密码: lvwc
本文仅供学习交流使用,如侵立删!
企鹅 : 1033383881
Python 爬取途虎养车 全系车型 轮胎 保养 数据的更多相关文章
- 途虎养车Tuhu商城系统开发
途虎养车Tuhu商城系统开发,咨询:何经理152-2217-7508(微信同号)途虎养车商城小程序开发,途虎养车商城小程序平台开发,途虎养车商城小程序系统开发. 为什么能做得这么好,里面的门道确实不少 ...
- 用Python爬取分析【某东618】畅销商品销量数据,带你看看大家都喜欢买什么!
618购物节,辰哥准备分析一波购物节大家都喜欢买什么?本文以某东为例,Python爬取618活动的畅销商品数据,并进行数据清洗,最后以可视化的方式从不同角度去了解畅销商品中,名列前茅的商品是哪些?销售 ...
- 使用Python 爬取 京东 ,淘宝。 商品详情页的数据。(避开了反爬虫机制)
以下是爬取京东商品详情的Python3代码,以excel存放链接的方式批量爬取.excel如下 代码如下 from selenium import webdriver from lxml import ...
- Python爬取NBA虎扑球员数据
虎扑是一个认真而有趣的社区,每天有众多JRs在虎扑分享自己对篮球.足球.游戏电竞.运动装备.影视.汽车.数码.情感等一切人和事的见解,热闹.真实.有温度. 受害者地址 https://nba.hupu ...
- Python 汽车之家 全系车型参数(包含历史停售车型) 最全
本文仅供学习交流使用,如侵立删!联系方式及demo下载见文末 汽车之家2021 全系车型参数(包含历史停售车型) 2021.10.21更新 增加参数:电动扰流板.无框设计车门.隐藏电动门把手.自动驾驶 ...
- 没有内涵段子可以刷了,利用Python爬取段友之家贴吧图片和小视频(含源码)
由于最新的视频整顿风波,内涵段子APP被迫关闭,广大段友无家可归,但是最近发现了一个"段友"的app,版本更新也挺快,正在号召广大段友回家,如下图,有兴趣的可以下载看看(ps:我不 ...
- Python 爬取 热词并进行分类数据分析-[解释修复+热词引用]
日期:2020.02.02 博客期:141 星期日 [本博客的代码如若要使用,请在下方评论区留言,之后再用(就是跟我说一声)] 所有相关跳转: a.[简单准备] b.[云图制作+数据导入] c.[拓扑 ...
- 手把手教你使用Python爬取西刺代理数据(下篇)
/1 前言/ 前几天小编发布了手把手教你使用Python爬取西次代理数据(上篇),木有赶上车的小伙伴,可以戳进去看看.今天小编带大家进行网页结构的分析以及网页数据的提取,具体步骤如下. /2 首页分析 ...
- python爬取股票最新数据并用excel绘制树状图
大家好,最近大A的白马股们简直 跌妈不认,作为重仓了抱团白马股基金的养鸡少年,每日那是一个以泪洗面啊. 不过从金融界最近一个交易日的大盘云图来看,其实很多中小股还是红色滴,绿的都是白马股们. 以下截图 ...
随机推荐
- 找到占用CPU最高的Java线程
一.找到java进程id jps查看当前运行的java进程id [root@localhost ~]# jps 18354 Jps 9381 Bootstrap 二.找到内存和CPU占用最高的线程pi ...
- 关于我开发tinymce的自由表单、病历插件这件事
项目地址:https://gitee.com/zhao-xuhang/tinymce 1.前期准备 这是个vue2项目所以要使用vue-cli (虽然开发tinymce插件和这个没关系) 1. 使用n ...
- Android shape与selector标签使用
原文地址:Android shape与selector标签使用 Android中提供一种xml的方式,让我们可以自由地定义背景,比较常用的就是shape标签和selector标签 shape shap ...
- 数组——JavaSE基础
数组 数组初始化 public class ArrayDemo02 { public static void main(String[] args) { // 静态初始化 int[] a = {1, ...
- Centos免密登陆
证书登录: 这里说的证书其实就是密钥. 在非对称加密中, 密钥分为公钥和私钥. 私钥, 即密钥所有人持有. 公钥则公布给他人. 公钥和私钥成对使用, 互相解密. 公钥加密数据只能用私钥解密; 私钥加密 ...
- BitBlt()函数实现带数字百分比进度条控件、静态文本(STATIC)控件实现的位图进度条、自定义进度条控件实现七彩虹颜色带数字百分比
Windows API BitBlt()函数实现带数字百分比进度条控件. 有两个例子:一用定时器实现,二用多线程实现. 带有详细注解. 此例是本人原创,绝对是网上稀缺资源(本源码用Windows AP ...
- Maven笔记---超详细
显眼位置标注来源:此文章为B站课程黑马程序员Maven全套教程笔记,由本人整理. Maven简介 Maven的本质是一个项目管理工具,将项目开发和管理过程抽象成一个项目对象模型(POM) POM (P ...
- 技术分享 | app自动化测试(Android)--App 控件交互
原文链接 常用操作 点击操作 通常获取到元素之后,可以调用 click() 方法来实现对这个元素的点击操作.示例代码如下: python 版本 driver.find_element_by_id(&q ...
- Amazon 消息订阅对接
亚马逊的api 谁用谁知道...... 除了坑还是坑 头疼一周整出来,分享给铁汁们 amazon 的订阅思维,我只能说外国人脑回路有点长 下面就讲讲具体流程步骤: 第一步: 参照官方教程:设置通知(A ...
- 全球共有多少MySQL实例在运行?这里有一份数据
摘要 Shadowserver Foundation在5月31日发布了一份全网的MySQL扫描报告,共发现了暴露在公网的360万个MySQL实例.因为这份报告基数够大,而且信息也非常完整,从数据库专业 ...