Selenium 爬取全国水质周报Word
很久没写爬虫了 ,昨天有个学姐说需要爬取水质的一些数据,给了个网站( http://xxfb.hydroinfo.gov.cn/ssIndex.html?type=2&tdsourcetag=s_pctim_aiomsg ),不过 那个网站 出问题了 ,无法加载数据,,,, .不过 爬虫的库都安装了 总不能 啥都不写 ,所以就从另一个网站爬取一些水质周报.
爬虫主要用的库 有:Selenium
一 安装Selenium
Selenium是一系列基于Web的自动化工具,提供一套测试函数,用于支持Web自动化测试。函数非常灵活,能够完成界面元素定位、窗口跳转、结果比较。爬虫过程,需要模拟鼠标点击,快速定位元素,利用 Selenium 可以非常方便的完成. 在控制台中输入 pip install selenium 进行安装.
二分析页面
爬虫最重要的一步是分析 页面内容. 本次爬虫网站为http://www.cnemc.cn/csszzb2093030.jhtml ,观察网站,主界面有一个ul,ul的id 为:contentPageData , 每个ul的li 都有a标签
点击a某个a标签后 ,打开新网页,网页中间就是我们需要下载的内容,单击页面的a标签就可以下载文件。
整个 操作非常少 。所以爬虫非常容易 。 主要步骤是:
1 进入主页面 http://www.cnemc.cn/csszzb2093030.jhtml,在输入框输入需要爬取的某一页。,点击跳转即到需要爬取的一页
2 获取该页面所有符合要求的a标签
3 根据a标签地址,进入下载页 ,找到需要下载文件的a 标签 最后实现点击就可以完成。
在之前 ,必须进行浏览器下载设置 。
options = webdriver.ChromeOptions()
# 设置中文
options.add_argument('lang=zh_CN.UTF-8')
options.add_argument('user-agent="Mozilla/5.0 (iPod; U; CPU iPhone OS 2_1 like Mac OS X; ja-jp) AppleWebKit/525.18.1 (KHTML, like Gecko) Version/3.1.1 Mobile/5F137 Safari/525.20"')
prefs = {"download.default_directory": "地址"}
options.add_experimental_option("prefs", prefs)
driver = webdriver.Chrome(chrome_options=options)
爬虫过程中 ,需要注意 ,在进行页面跳转后,需要让程序休息几秒,确保浏览器已经完成跳转。
#! /usr/bin/env python
# -*- coding: utf-8 -*-
# __author__ = "hlx"
# Date: 2018/10/12 from selenium import webdriver
import time
import os # 进入浏览器设置
options = webdriver.ChromeOptions()
# 设置中文
options.add_argument('lang=zh_CN.UTF-8')
options.add_argument('user-agent="Mozilla/5.0 (iPod; U; CPU iPhone OS 2_1 like Mac OS X; ja-jp) AppleWebKit/525.18.1 (KHTML, like Gecko) Version/3.1.1 Mobile/5F137 Safari/525.20"')
prefs = {"download.default_directory": "D:\\MyProgram\\Python\\Pycharm\\Worm\\"}
options.add_experimental_option("prefs", prefs)
driver = webdriver.Chrome(chrome_options=options)
my_Log=[] def download_Data(url_list):
'''
:param url_list:页面url列表
:return:文档下载url
''' for index in range(len(url_list)):
url = url_list[index]
driver.get(url)
#获取文件下载名称
try: filename= driver.find_element_by_xpath("//div[@class='text']//p//a").text
#点击文件下载链接
driver.find_element_by_xpath("//div[@class='text']//p//a").click()
#等待下载完成
print("正在下载"+filename)
time.sleep(3)
my_Log.append(filename+"下载完成") except:
print("下载第"+str(index+1)+"失败")
my_Log.append(url + "下载失败") #文件下载位置
#="D:\\MyProgram\\Python\\Pycharm\\Worm\\"+filename
#flag=True
#count=10 def WaterQuality_Spider(url,pageCount):
'''
:param url: 网站url
:param pageCount: 爬取的数目
:return: list url
''' list_url=[]
for index in range(pageCount):
driver.get('http://www.cnemc.cn/csszzb2093030.jhtml')
#休息一下 不然跳转不来
time.sleep(3)
page=str(index)
driver.find_element_by_id("pageNum").send_keys(page)#在页码处填写页码
#name=driver.find_element_by_xpath("//span[@class='list_hand'][last()]")
driver.find_element_by_xpath("//span[@class='list_hand'][last()]").click()#转到该页
# 休息一下 不然跳转不来
time.sleep(2)
list_a=driver.find_elements_by_xpath("//ul[@id='contentPageData']//a")#获取结果链接
for thea in list_a:
theurl = thea.get_attribute("href")
list_url.append(theurl)
download_Data(list_url)
list_url = []
my_Log.append("第"+str(index+1)+"下载完成")
f = open("log.txt", 'a')
for index in range(len(my_Log)):
f.write(my_Log[index] + "\n")
my_Log=[]
print("第"+str(index+1)+"下载完成") return "ok" if __name__=="__main__":
count=input("输入爬取的页数: ")
url='http://www.cnemc.cn/csszzb2093030.jhtml'
print("启动爬虫")
WaterQuality_Spider(url,int(count)) print("爬虫结束")
执行几分钟后,就可以获得结果
Selenium 爬取全国水质周报Word的更多相关文章
- python 利用selenium爬取百度文库的word文章
今天学习如何使用selenium库来爬取百度文库里面的收费的word文档 from selenium import webdriver from selenium.webdriver.common.k ...
- Python+Selenium爬取动态加载页面(1)
注: 最近有一小任务,需要收集水质和水雨信息,找了两个网站:国家地表水水质自动监测实时数据发布系统和全国水雨情网.由于这两个网站的数据都是动态加载出来的,所以我用了Selenium来完成我的数据获取. ...
- Python+Selenium爬取动态加载页面(2)
注: 上一篇<Python+Selenium爬取动态加载页面(1)>讲了基本地如何获取动态页面的数据,这里再讲一个稍微复杂一点的数据获取全国水雨情网.数据的获取过程跟人手动获取过程类似,所 ...
- [Python爬虫] Selenium爬取新浪微博客户端用户信息、热点话题及评论 (上)
转载自:http://blog.csdn.net/eastmount/article/details/51231852 一. 文章介绍 源码下载地址:http://download.csdn.net/ ...
- selenium爬取煎蛋网
selenium爬取煎蛋网 直接上代码 from selenium import webdriver from selenium.webdriver.support.ui import WebDriv ...
- 利用selenium爬取京东商品信息存放到mongodb
利用selenium爬取京东商城的商品信息思路: 1.首先进入京东的搜索页面,分析搜索页面信息可以得到路由结构 2.根据页面信息可以看到京东在搜索页面使用了懒加载,所以为了解决这个问题,使用递归.等待 ...
- python爬虫学习之爬取全国各省市县级城市邮政编码
实例需求:运用python语言在http://www.ip138.com/post/网站爬取全国各个省市县级城市的邮政编码,并且保存在excel文件中 实例环境:python3.7 requests库 ...
- 利用Selenium爬取淘宝商品信息
一. Selenium和PhantomJS介绍 Selenium是一个用于Web应用程序测试的工具,Selenium直接运行在浏览器中,就像真正的用户在操作一样.由于这个性质,Selenium也是一 ...
- Scrapy 框架 使用 selenium 爬取动态加载内容
使用 selenium 爬取动态加载内容 开启中间件 DOWNLOADER_MIDDLEWARES = { 'wangyiPro.middlewares.WangyiproDownloaderMidd ...
随机推荐
- Ajax 小实例
1.urls.py url(r'^jiafa', views.jiafa), 2.views.py def jiafa(request): if request.method == "GET ...
- excel文件使用navicat工具导入mysql的方法
1.在excel文件的sheet上,第1行下面插入一行,对应DB里面的字段名称,方便后面导入时做字段匹配: 2.使用Navicat ,打开工具,选择表所在的数据库,然后点击数据库名字,右键Tables ...
- 使用yum下载rpm包
查看系统有哪些可用的yum源yum repolist all yum指定本地源安装rpm包yum install <package-name> --enablerepo=<repos ...
- MySQL运维之---mysqldump备份、select...into outfile、mysql -e 等工具的使用
1.mysqldump备份一个数据库 mysqldump命令备份一个数据库的基本语法: mysqldump -u user -p pwd dbname > Backup.sql 我们来讲解一下备 ...
- SQL server权限管理和备份实例
权限设置: 1.创建用户zhangsan,并赋予zhangsan有dbcreator的服务器权限. 2.使用zhangsan登录,测试能否创建数据库. 3.使用sa用户附加myschool数据库,设置 ...
- 不使用 vue-cli 与 vue 模版,使用 Vue2.x + webpack4.x 从零开始一步步搭建项目框架
说明 这是我根据慕课网上的一个课程 Vue+Webpack打造todo应用 过程一步步搭下来的框架,去掉了业务相关的逻辑. 项目最终的效果包括了引入vue框架:使用CSS预处理器:使用babel:引用 ...
- ElasticStack系列之十八 & ElasticSearch5.x XPack 过期新 License 更新
摘要 当你某一天打开 Kibana 对应的 Monitoring 选项卡的时候,发现提示需要下载新的 license,旧的 license 已经过期了,试用期为30天,如果不是很需要其他的复杂监控.报 ...
- if 和 elif 的区别
if: 如果一个判断中用if, 程序他会遍历所有的if, 即使你的判断条件遍历到了, 也会继续执行, 直到遍历完所有的if. elif: 而elif呢, 则效率很高. 只要遍历到你的判断条件, ...
- XSS详解
什么是XSS(跨站脚本攻击) XSS又叫CSS (Cross Site Script) ,跨站脚本攻击.它指的是恶意攻击者往Web页面里插入恶意html代码或者javascript代码,当用户浏览该页 ...
- canvas实例_时钟
效果图:是一个会动的时钟 一.时钟的组成 1.表盘(蓝色) 2.刻度(黑色) 3.时针(黑色) 4.分针(黑色) 5.秒针(红色)需美化 二.主要应用的技术 Canvas画线 Canv ...