selenuim自动化爬取汽车在线谷米爱车网车辆GPS数据爬虫
#为了实时获取车辆信息,以及为了后面进行行使轨迹绘图,写了一个基于selelnium的爬虫爬取了车辆gps数据。
#在这里发现selenium可以很好的实现网页解析和处理js处理
#导包
import time
from selenium import webdriver
from selenium.webdriver.support.wait import WebDriverWait
#以下两个包是为了设置显示等待(从网上复制的)
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.common.by import By
class Car_Lines():
def __init__(self):
self.driver = webdriver.Chrome()
#登录网站
def login_web(self):
self.driver.get('http://www.gpsoo.net/index.shtml')
time.sleep(0.5)
while 1:
try:
self.driver.find_element_by_id('loginToggle').click()
self.driver.find_element_by_class_name('first').click()
self.driver.find_element_by_id('txtUserName').send_keys('***')
self.driver.find_element_by_id('txtPwd').send_keys('***')
self.driver.find_element_by_class_name('login_btn').click()
print('已成功登录')
break
except:
print('未登录成功,继续登录')
# 点击 下载轨迹
def download_data(self):
self.driver.find_element_by_xpath("//div[@id='dl-gps-data']/span").click()
self.clear_js()
#清楚原始输入框的信息
self.driver.find_element_by_id('dl-from').clear()
#此处传入下载起始时间
self.driver.find_element_by_id('dl-from').send_keys(self.seven_day())
time.sleep(2)
self.driver.find_element_by_id("dl-data-btn").click()
self.driver.back()
#车辆信息
def info(self,x):
#此处url是一个iframe框里的url地址,可以进入页面时刷新页面会出现
self.driver.get(url)
time.sleep(1)
#给xpath传入变量,解析三种车辆,此处用format传入
info = self.driver.find_elements_by_xpath("//div[@groupid={}]/div[@class='group_canvas']/div".format(x))
time.sleep(0.5)
return info
#消除input框的readonly属性
def clear_js(self):
try:
#首先因为id为dl-from的标签在网页源码中是不存在的,此处是通过js加载出来,所以设置显示等待等待dl-from标签加载出来
#显示等待可以按频率一直等到标签出现,此处合适,有利于时间利用
WebDriverWait(self.driver, 20, 0.5).until(EC.presence_of_element_located((By.ID, "dl-from")))
except Exception as e:
print(e)
#同时这个标签是一个只读标签,因为此处是个日期控件,需要设置js消除标签的只读属性
js = 'document.getElementById("dl-from").removeAttribute("readonly");'
return self.driver.execute_script(js)
#时间间隔为7天
def seven_day(self):
#用datetime包算出七天前的日期时间
t1 = time.time()
t2 = t2 = t1 - 86400 * 7
t2_1 = time.localtime(t2)
t3 = time.strftime("%Y-%m-%d %H:%M:%S", t2_1)
return t3
#获取车辆ID和username并下载轨迹
def get_id_username(self,x):
#默认的id及用户
id = '***'
username = "***"
#遍历所有车辆
for i in range(99):
#这里并不是遍历了99次,因为每一类型车辆数量不足99,也为了节省时间和处理不确定情况,所以while循环是在最后一辆结束后再10次爬取后停止爬取
j = 10
while j > 0:
try:
#遍历获取每一辆车的id和username
id = self.info(x)[i].get_attribute('id')
username = self.info(x)[i].get_attribute('username')
print('id获取成功')
break
except:
print('继续获取id')
j -= 1
if j == 0:
break
#传入url车辆id和username构建url地址获取每辆车信息
self.driver.get('http://mapoo.10010care.com/user/playback.shtml? v=20190401.1357&lang=cn&mds=&requestSource=web&custid=233257382459121121&loginUrl=http://www1.gpsoo1.net/&logout=http://www1.gpsoo1.net/?ip&psip=in1.gpsoo1.net/&custname=' + username + '&random=232423452784459&objectid=' + id)
time.sleep(1)
self.download_data()
print(username + '已下载成功')
time.sleep(1)

#这里有三类所以分三种爬取
#爬取默认组的
def onLine(self, l1):
#l1 = [a, b, c]三个参数是三种情况
for i in l1:
print('开始爬取正在使用的'+i+'车辆')
self.get_id_username(i)
print('爬取完毕')
#退出
def close_web(self):
self.driver.quit()
#主函数
def main(self):
self.login_web()
self.onLine(l1)
self.close_web()
if __name__ == '__main__':
c = Car_Lines()
c.main()
#可以发现已经下载成功间隔为7天的车辆信息
selenuim自动化爬取汽车在线谷米爱车网车辆GPS数据爬虫的更多相关文章
- 爬虫实战——Scrapy爬取伯乐在线所有文章
Scrapy简单介绍及爬取伯乐在线所有文章 一.简说安装相关环境及依赖包 1.安装Python(2或3都行,我这里用的是3) 2.虚拟环境搭建: 依赖包:virtualenv,virtualenvwr ...
- python爬虫scrapy框架——爬取伯乐在线网站文章
一.前言 1. scrapy依赖包: 二.创建工程 1. 创建scrapy工程: scrapy staratproject ArticleSpider 2. 开始(创建)新的爬虫: cd Artic ...
- python3 爬取汽车之家所有车型数据操作步骤(更新版)
题记: 互联网上关于使用python3去爬取汽车之家的汽车数据(主要是汽车基本参数,配置参数,颜色参数,内饰参数)的教程已经非常多了,但大体的方案分两种: 1.解析出汽车之家某个车型的网页,然后正则表 ...
- Scrapy爬取伯乐在线的所有文章
本篇文章将从搭建虚拟环境开始,爬取伯乐在线上的所有文章的数据. 搭建虚拟环境之前需要配置环境变量,该环境变量的变量值为虚拟环境的存放目录 1. 配置环境变量 2.创建虚拟环境 用mkvirtualen ...
- 分布式爬虫系统设计、实现与实战:爬取京东、苏宁易购全网手机商品数据+MySQL、HBase存储
http://blog.51cto.com/xpleaf/2093952 1 概述 在不用爬虫框架的情况,经过多方学习,尝试实现了一个分布式爬虫系统,并且可以将数据保存到不同地方,类似MySQL.HB ...
- (java)selenium webdriver爬虫学习--爬取阿里指数网站的每个分类的top50 相关数据;
主题:java 爬虫--爬取'阿里指数'网站的每个分类的top50 相关数据: 网站网址为:http://index.1688.com/alizs/top.htm?curType=offer& ...
- java爬虫入门--用jsoup爬取汽车之家的新闻
概述 使用jsoup来进行网页数据爬取.jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址.HTML文本内容.它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuer ...
- Python 爬虫实例(15) 爬取 汽车之家(汽车授权经销商)
有人给我吹牛逼,说汽车之家反爬很厉害,我不服气,所以就爬取了一下这个网址. 本片博客的目的是重点的分析定向爬虫的过程,希望读者能学会爬虫的分析流程. 一:爬虫的目标: 打开汽车之家的链接:https: ...
- Python爬虫——使用 lxml 解析器爬取汽车之家二手车信息
本次爬虫的目标是汽车之家的二手车销售信息,范围是全国,不过很可惜,汽车之家只显示100页信息,每页48条,也就是说最多只能够爬取4800条信息. 由于这次爬虫的主要目的是使用lxml解析器,所以在信息 ...
随机推荐
- .NET CORE webapi epplus 导入导出 (实习第一个月的笔记)
最近有个需求就是网页表格里面的数据导出到excel 于是从各位前辈的博客园搜了搜demo 大部分非为两类 都是用的插件NPOI和Eppluse ,因此在这里就介绍Eppluse 用法,还有就是在博 ...
- 2019 创蓝253java面试笔试题 (含面试题解析)
本人5年开发经验.18年年底开始跑路找工作,在互联网寒冬下成功拿到阿里巴巴.今日头条.创蓝253等公司offer,岗位是Java后端开发,因为发展原因最终选择去了创蓝253,入职一年时间了,也成为 ...
- HTML5 新增文本标签
一.mark 标记文本 <mark> 标签定义带有记号的文本,表示页面中需要突出显示或高亮显示的信息. 通常在引用原文的时候使用 mark 元素,目的是引起当前用户的注意. 语法格式: & ...
- linux设备驱动程序--在用户空间注册文件接口
linux字符设备驱动程序--创建设备节点 基于4.14内核,运行在beagleBone green 在上一讲中,我们写了第一个linux设备驱动程序--hello_world,在驱动程序中,我们什么 ...
- CentOS6.7搭建部署DNS服务 (详解主配置文件)
-DNS服务器的基本原理 域名简介:使用tcp/udp协议,默认使用53端口号 默认情况下,客户端发起的查询请求都是用UDP/53查询的. 默认情况下,从从服务器到主服务器传输数据用的是TCP/53. ...
- Ansible--项目实战
Ansible项目实战lnmp 项目规划 通过ansible roles配置lnmp环境,nginx通过源码编译安装,php通过源码编译安装,mysql通过yum安装(mysql源码编译超级慢)支持系 ...
- MTU是什么?
MTU是Maximum Transmission Unit的缩写. 意思是网络上传送的最大数据包. MTU的单位是字节. 大部分网络设备的MTU都是1500.如果本机的MTU比网关的MTU大,大的数据 ...
- Beta冲刺第5次
二.Scrum部分 1. 各成员情况 翟仕佶 学号201731103226 今日进展 新增将图片转为粉笔画功能代码 存在问题 难者不会,会者不难,主要是参数设置问题 明日安排 视情况而定,可能还是写扩 ...
- geany写C语言,printf打印中文时显示乱码
原因 geany设置了编码格式为utf8 运行时显示出的cmd窗口编码格式为GBK 解决方法 要么修改geany编码,要么修改cmd窗口编码. 修改geany编辑器为GBK编码格式 编辑=>首选 ...
- docker学习7-Dockerfile制作自己的镜像文件
前言 如果你是一个python自动化测试人员,某天你在公司终于完成了一个项目的接口自动化脚本工作,在你自己常用的本机或者服务器上调试完成了脚本,稳稳地没问题. 可是晚上下班回家,你自己找了个linux ...