从http://www.pm25.com/shenzhen.html抓取北京,深圳,上海,广州,成都的pm2.5指数,并按照空气质量从优到差排序,保存在txt文档里 代码如下: #coding=utf-8 from selenium import webdriver from time import sleep class PM: def __init__(self): self.dr = webdriver.Chrome() self.pm25_info = self.get_pm25_inf…
结论 国际惯例,先上结论. Java 类职位招聘,不论是需求量(工作机会),还是工资平均水平,都是帝都北京最好. 北京和上海的平均工资差距不大(不超过200/月),但上海的需求量是北京的一半,机会更少. 广州和深圳的工作机会几乎一样,平均工资也相差不大. 本数据取自 2017 年 4 月 29 号 19 点智联招聘北上广深 90 页招聘数据.收智联排序影响, 可能会有偏差(估计不大). 本数据进攻个人学习只用,如有冒犯,告知立删. excel文件下载地址http://pan.baidu.com/…
信念.思考.行动-谈谈程序员返回家乡的创业问题 昨天晚上在微博上看了篇 <为什么现在很多年轻人愿意来北上广深打拼,即使过得异常艰苦,远离亲人,仍然义无反顾?>,有些话想说. 感觉很多人的担心是回到一个落后的环境后的种种不适应,比如说,工作机会少,比如说,工资低,比如说,不靠能力靠关系,比如说,受不了爱攀比的文化. 极其巨大的反差阻挡了程序员的脚步. 程序员返回家乡,那就是农村包围城市.在二十世纪,农村包围城市最成功的就是我党.我们先看一个问题:太祖.恩来.国焘.明明四个人,当年都是我党的巨头,…
5G基站建设下的“中国速度”:北上广深领跑全国,均超1万个 https://www.laoyaoba.com/html/news/newsdetail?source=pc&news_id=734492 2019年11月的新闻 这些应该都是macro 机战吧. 小如·11-16 10:42·通信 来源: 爱集微 集微网消息(文/小如)2019年被认为是5G元年,我国5G建设也正在提速.据中国信息通信研究院副院长王志勤11月6日透露,目前我国已经建成5G基站8.6万个,预计到年底突破13万个. 根据…
随着国家发展,中国很多城市的空气质量其实并不好,国家气象局会有实时统计,但是要去写爬虫爬取是十分麻烦的事情,并且官方网站也会做一些反爬虫措施,所以实现起来比较麻烦,最好的办法就是使用现成的免费接口,空气质量指数分析,这里是笔者自己实现的一个python调用方式,代码如下: # -*- coding: utf-8 -*- # flake8: noqa __author__ = 'wukong' import urllib from urllib import urlencode #配置您申请的ap…
1.安装依赖包 yum install wget firefox gcc zlib zlib-devel Xvfb 2.安装setuptools 官网地址:https://pypi.python.org/pypi/setuptools 百度地址:http://pan.baidu.com/s/1i5JlRH7 .tar.gz cd setuptools- python setup.py install 3.安装selenium 官网地址:https://pypi.python.org/pypi/s…
前言: 目前在研究易信公众号,想给公众号增加一个获取个人交通违章的查询菜单,通过点击返回查询数据.以下是实施过程. 一.首先,用火狐浏览器打开XX省交管网,分析页面信息: 可以看到共有4种查询种类,我只要查询违章数据,所以分析第一个电子警察信息查询就好了,用firebug分别查看车牌号码.车辆识别码.验证码输入框,可以得到id属性,分别为:carNum1.carAuthCode1.captcha1. 到这里,我们可以用selenium根据获取的id,自动填入车牌号码.车辆识别码.验证码,但验证码…
.get_attribute("value") from selenium import webdriver import time driver=webdriver.Firefox() driver.get("http://www.baidu.com") driver.find_element_by_id("kw").send_keys("hello") time.sleep(1) var=driver.find_eleme…
问题描述 使用Python SDK来获取Azure上的各种资源的Metrics的名称以及Metrics Data的示例 问题解答 通过 azure-monitor-query ,可以创建一个 metrics client,调用 client.list_metric_definitions 来获取Metrics 定义,然后通过 client.query_resource 获取Metrics data. 关键函数为: #第一步:定义 client client = MetricsQueryClien…
IT行业的技术者,时常被我们戏称为「IT民工」,虽然行业内巨大的人才需求和相对容易得到的高薪在源源不断的吸引各路人马加入,但它依旧在全球最缺人的十大行业中位居榜首. 我身边的朋友大都问过我这样一个疑问: 几乎每所大学都会开设计算机技术相关专业,再加上IT培训机构的输出,每年培养出来的技术人才加在一起少说也有10-20万人,如此多的人为何还会有这么大的人才缺口呢? 0 以"十三五"规划(2016-2020年)为首的政策将持续带动IT行业的发展.去年开始"一带一路"的建…
网上有很多是selenium基于python来获取两个窗口句柄与切换,本文实现用python+selenium获取多窗口句柄并一一切换至原窗口句柄(三个窗口),且在每个窗口下进行一个搜索或翻译,然后截图. 代码如下: # coding=utf-8 from selenium import webdriver import time driver = webdriver.Chrome() driver.maximize_window() # 窗口最大化 driver.get('https://ww…
有人回答说这只能是大企业或者互联网企业工程师才能拿到.也许是的,小公司或者非互联网企业拿两万的不太可能是码农了,应该已经转管理.还有区域问题,这个不在我的考虑范围内,因为除了北上广深杭,其他地方也很难达到. 还有人提到这个水平不止2w,其实工资是跟面试表现有关的,也跟其他综合水平有关,比如你是985,top10,或者研究生学历,也或者懂点node,懂点大数据等等,或者表达能力强,击中面试官痛点都会加分.如果你达到我说的水准,起薪就是2w,有其他优秀的表现还会在这个基础上加分.但纯JAVA方面待遇…
这个问题可能很多人会说这只是大企业或者互联网企业工程师才能拿到.也许是的,小公司或者非互联网企业拿两万的不太可能是码农了,应该已经转管理.还有区域问题,这个不在我的考虑范围内,因为这方面除了北上广深杭,其他的地方一般也很难达到. 还有人提到这个水平不止2w,其实工资是跟面试表现有关的,也跟其他综合水平有关,比如你是985,top10,或者研究生学历,也或者懂点node,懂点大数据等等,或者表达能力强,击中面试官痛点都会加分.如果你达到我说的水准,起薪就是2w,有其他优秀的表现还会在这个基础上加分…
网上有很多是selenium基于python来获取两个窗口句柄与切换,本文实现用python+selenium获取多窗口句柄并一一切换至原窗口句柄(三个窗口),且在每个窗口下进行一个搜索或翻译,然后截图. 代码如下: # coding=utf-8 from selenium import webdriver import time driver = webdriver.Chrome() driver.maximize_window() # 窗口最大化 driver.get('https://ww…
使用 python 代码收集主机的系统信息,主要:主机名称.IP.系统版本.服务器厂商.型号.序列号.CPU信息.内存等系统信息. #!/usr/bin/env python #encoding: utf-8 ''' 收集主机的信息: 主机名称.IP.系统版本.服务器厂商.型号.序列号.CPU信息.内存信息 ''' from subprocess import Popen, PIPE import os,sys ''' 获取 ifconfig 命令的输出 ''' def getIfconfig(…
爬虫代理IP由芝麻HTTP服务供应商提供 使用 python 代码收集主机的系统信息,主要:主机名称.IP.系统版本.服务器厂商.型号.序列号.CPU信息.内存等系统信息. #!/usr/bin/env python #encoding: utf-8 ''' 收集主机的信息: 主机名称.IP.系统版本.服务器厂商.型号.序列号.CPU信息.内存信息 ''' from subprocess import Popen, PIPE import os,sys ''' 获取 ifconfig 命令的输出…
(一)  说明 上一篇只能下载一页的数据,第2.3.4....100页的数据没法获取,在上一篇的基础上修改了下,使用selenium去获取所有页的href属性值. 使用selenium去模拟浏览器有点麻烦,例如有300页就要点300次(按博客园这种一页20条,也就是6000条数据.要是几百万条,这个就得点好长时间了) 研究下有没有办法调用JS修改页面默认显示的数据条数(例如:博客园默认1页显示20条,改成默认显示1万条数据). (二)  完整代码 delayed.py的代码还是和之前一样.最好限…
本人刚才开始学习爬虫,从网上查询资料,写了一个利用Selenium+Phantomjs动态获取网站数据信息的例子,当然首先要安装Selenium+Phantomjs,具体的看 http://www.cnblogs.com/shaosks/p/6526817.html  Selenium下载: https://pypi.python.org/pypi/selenium/ phantomjs使用参考:http://javascript.ruanyifeng.com/tool/phantomjs.ht…
Python+selenium之获取文本值和下拉框选择数据 一.结合实例进行描述 1. 实例如下所示: #新增标签操作 def func_labels(self): self.driver.find_element_by_xpath("//*[@class='menu-text'][text()='业务管理']").click() time.sleep(1) self.driver.find_element_by_xpath("//*[@class='menu-text'][…
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇 小白学 Python 爬虫(2):前置准备(一)基本类库的安装 小白学 Python 爬虫(3):前置准备(二)Linux基础入门 小白学 Python 爬虫(4):前置准备(三)Docker基础入门 小白学 Python 爬虫(5):前置准备(四)数据库基础 小白学 Python 爬虫(6):前置准备(五)爬虫框架的安装 小白学 Python 爬虫(7):HTTP 基础 小白学 Python 爬虫(8):网页基…
Python+Selenium自动化-获取页面信息   1.获取页面title title:获取当前页面的标题显示的字段 from selenium import webdriver import time browser = webdriver.Chrome() browser.get('https://www.baidu.com') #打印网页标题 print(browser.title) #输出内容:百度一下,你就知道 2.获取页面URL current_url:获取当前页面的URL fr…
如下图所示: 当定位元素时,我想获取指定的某一列的某一行的断言,如图我只想获取jiancha1的值,有同学会说:直接定位不就好了.但是我们知道,列表的数据会时刻变动的,不能靠定死的路径,那该怎么办呢? 我们可以在定位元素上下文章,首先,通过F12定位元素XPATH路径: # 姓名:zc监察1 get_name_loc = (By.XPATH,"//div[@class='bs-example']/form/table/tbody/tr[1]/td[2]") # 姓名:jiancha1…
# coding=utf-8 from selenium import webdriver driver = webdriver.Firefox() driver.maximize_window () driver.get("https://www.baidu.com") try: driver.find_element_by_id("kwf") print("id is find") except Exception as e: print(&…
接口:hk_hold 描述:获取沪深港股通持股明细,数据来源港交所. 限量:单次最多提取3800条记录,可循环调取,总量不限制 积分:用户积120积分可调取试用,2000积分可正常使用,单位分钟有流控,积分越高流量越大,请自行提高积分,具体请参阅本文最下方积分获取办法 注:tushare包下载和初始化教程,请查阅我之前的文章 输入参数 名称      |      类型      |      必选      |      描述 code      |      str      |     …
目标 先介绍下我们本篇文章的目标,如图: 本篇文章计划获取商品的一些基本信息,如名称.商店.价格.是否自营.图片路径等等. 准备 首先要确认自己本地已经安装好了 Selenium 包括 Chrome ,并已经配置好了 ChromeDriver .如果还没安装好,可以参考前面的前置准备. 分析 接下来我们就要分析一下了. 首先,我们的搜索关键字是 iPhone ,直接先翻到最后一页看下结果,发现有好多商品并不是 iPhone ,而是 iPhone 的手机壳,这个明显不是我们想要的结果,小编这里选择…
在做Web自动化过程中,汇总了Python+selenium的API相关方法,给公司里的同事做了第二次培训,分享给大家                                                                                                                     WEB自动化测试培训2 课程目的 一.Webdriver API 的使用 课程内容 1    控制浏览器 Selenium 主要提供的是操作页面上各…
前言 一个自动化测试框架就是一个集成体系,在这一体系中包含测试功能的函数库.测试数据源.测试对象识别标准,以及种可重用的模块.自动化测试框架在发展的过程中经历了几个阶段,模块驱动测试.数据驱动测试.对象驱动测试.本章就带领读者了解这几种测试模型 1. 自动化测试模型介绍 自动化测试模型是自动化测试架构的基础,自动化测试的发展也经历的不同的阶段,不断有新的模型(概念)被提出,了解和使用这些自动化模型将帮助我们构建一个灵活可维护性的自动化架构 1.1 线性测试 通过录制或编写脚本,一个脚本完成一个场…
python+selenium+unnittest框架,以百度搜索为例,做了一个简单的框架,先看一下整个项目目录结构 我用的是pycharm工具,我觉得这个工具是天使,超好用也超好看! 这些要感谢原作者:https://blog.csdn.net/u011541946/article/details/70269965 但是我这里有些改动,主要是代码方面的,作者写的我运行有问题而且理解不了,改了一点 有几点注意强调一下: 1.不要建目录,要建python package会自动创建__init__.…
Selenium 是一款强大的基于浏览器的开源自动化测试工具,最初由 Jason Huggins 于 2004 年在 ThoughtWorks 发起,它提供了一套简单易用的 API,模拟浏览器的各种操作,方便各种 Web 应用的自动化测试.它的取名很有意思,因为当时最流行的一款自动化测试工具叫做QTP,是由 Mercury 公司开发的商业应用.Mercury 是化学元素汞,而 Selenium 是化学元素硒,汞有剧毒,而硒可以解汞毒,它对汞有拮抗作用. Selenium 的核心组件叫做 Sele…
在前面一篇博客<使用 Python + Selenium 打造浏览器爬虫>中,我介绍了 Selenium 的基本用法和爬虫开发过程中经常使用的一些小技巧,利用这些写出一个浏览器爬虫已经完全没有问题了.看了前一篇博客,可能有人会有疑惑,浏览器爬虫的优势感觉并不比传统爬虫多多少啊,特别是通过遍历页面元素来获取爬虫数据的方式和传统爬虫解析 HTML 文档结构的方式如出一辙.为了体现浏览器爬虫的优越性,我特意准备了这篇博客,来看看如果要破解滑块验证码,浏览器爬虫比传统爬虫要容易多少. 一.滑块验证码简…