python自动化之爬虫原理及简单案例
【爬虫案例】动态地图里的数据如何抓取:以全国PPP综合信息平台网站为例 http://mp.weixin.qq.com/s/BXWTf5hmq8vp91ZvgaphEw
【爬虫案例】动态页面的抓取!以东方财富网基金行情数据为例 http://mp.weixin.qq.com/s/bbw5caz4EfJn5mwbDMVfuQ
【爬虫案例】获取历史天气数据 http://mp.weixin.qq.com/s/MlqJUuH0JjTujMzGJp_7kw
【爬虫案例】电影票房数据抓取 https://mp.weixin.qq.com/s/UgH53P86Y0nfY-67EDQ8wA
#####http://www.lishi.tianqi.com/yangzhong/201407.html
#####http://lishi.tianqi.com/yangzhong/201407.html
#####www.cbooo.cn/year?year=2016
#####www.cpppc.org:8082/efmisweb/ppp/projectLibrary/toPPPMap.do
#####fundact.eastmoney.com/banner/gp.html?from=groupmessage&isappinstalled=0
#
#http://lishi.tianqi.com/yangzhong/201407.html
##################################################################
##############爬取票房纪要
#####www.cbooo.cn/year?year=2016
1、确认搜的票房数据在代码里(Ctrl+F搜索出来)搜索关键字:如"美人鱼",是否在页面上
2、模板(对于数据在页面上适用):获取页面/解析网页
3、找到数据在哪?定位数据首选用id定位
4、返回列表的话找对应的项
#########采用解析器:'lxml',解析页面;也可以用html.parse解析器
分析数据在哪个框里面,这是一个table,定位方式首选用id定位
soup.find_all 找到所有table,限制条件为id=tbContent
里面每一个tr代表一行,一个电影即为一行,找到所有tr标签
td表示当中的每一个单元,找出当中第一个中的a标签中的title属性即为需要的电影名称
dd与dl是现在很少用的标签,表示为定义式,有点类似于字典
import requests ############获取页面
from bs4 import BeautifulSoup ############解析网页
year=2017
url='http://www.cbooo.cn/year?year='+str(year)
rawhtml=requests.get(url).content
print(type(rawhtml))
soup=BeautifulSoup(rawhtml,'lxml') #########采用解析器:'lxml',解析页面;也可以用html.parse解析器
###soup.select('dl.dltext dd')
###有快捷的方式:能把所有标签去掉,soup.select('dl.dltext dd')[0].get_text()
def getYear(year):
#year=2017
url='http://www.cbooo.cn/year?year='+str(year)
rawhtml=requests.get(url).content
#print(type(rawhtml))
soup=BeautifulSoup(rawhtml,'lxml') #########采用解析器:'lxml',解析页面;也可以用html.parse解析器
#print(type(soup))
return soup
def getInfo(url):
rawhtml=requests.get(url).content
soup=BeautifulSoup(rawhtml,'lxml')
return soup
print(type(soup))
movies_table=soup.find_all('table',{'id':"tbContent"})[0] ####用find_all()方法,通过table标签,加上字典参数,属性为id=tbContent
movies=movies_table.find_all('tr')
moviename=[movie.find_all('td')[0].a.get('title') for movie in movies[1:]]
movielink=[movie.find_all('td')[0].a.get('href') for movie in movies[1:]]
movietype=[movie.find_all('td')[1].string for movie in movies[1:]]
movieboxoffice =[int(movie.find_all('td')[2].string) for movie in movies[1:]]
#moviedirector=[getInfo(url).find_all('dl',{'class':'dltext'})[0].find_all('dd')[0].a.get('title') for url in movielink]
moviedirector=[getInfo(url).select('dl.dltext dd')[0].get_text() for url in movielink]
############转成数据框&统计分析
import pandas as pd
df=pd.DataFrame({'names':moviename,'types':movietype,'boxoffice':movieboxoffice,'link':movielink,'directors':moviedirector})
import numpy as np
df.groupby('types').agg({'boxoffice':["count","mean"]})
#############写到文件中
df.to_csv(r'C:\Users\Administrator\Desktop\电影.csv')
标签是div,div在html中意思为一个块集
确认html页面真的存在代码中
确认数据在代码中,即好爬,如果不在代码中,用js进行渲染,即不好爬
再看有没有翻页,没有翻页,即OK
这里以一个电影评分的网站为例,介绍数据抓取的基本流程和方法。
标准配置:
--requests:抓取网址的HTML内容
--BeautifulSoup:解析HTML源码,提供方便的查询接口
--re:正则表达式,通过描述规则从字符中提取需要的数据
(这里不作介绍)
import requests ########获取页面
from bs4 import BeautifulSoup #######解析网页
url='http://www.cbooo.cn/year?year=2016'
rawhtml=requests.get(url).content #######获取内容
##################################################################
##############爬取天气纪要
###############http://www.tianqihoubao.com/weather/top/shenzhen.html
##############数据抓取:
##############某些情况下需要从网络抓取数据,比如舆情监控需要抓取相关的新闻内容;
##############判断天气原因是否对超市的销量有影响时,除了已有的销量数据外还需要从
##############网络抓取每日的天气数据
1、下载的url数据
2、在谷歌浏览器右键:检查,找到每一行数据在不在网页代码中,找到整个下载数据是个table,tblite_go
3、一页一页加载时,发现问题:网址未发生变化,没有刷新
1)打开network,点击每一页时发现Request URL不一致,此时表明为异步加载;
2)将不同页的链接复制出来,查看区别;
3)找到规律,将链接查看,即对应数据;
4)由于r.content为乱码,r.text为中文格式;
5)解析;
6)每一页写入;
import requests ############获取页面
from bs4 import BeautifulSoup ############解析网页
url='http://www.tianqihoubao.com/weather/top/shenzhen.html'
rawhtml=requests.get(url).content
weatherhtml=BeautifulSoup(rawhtml,'lxml')
dateset=[weather.find_all('td')[1].b.a.string for weather in weatherhtml.find_all('table')[0].find_all('tr')[2:]]
dayweatherset=[weather.find_all('td')[2].string for weather in weatherhtml.find_all('table')[0].find_all('tr')[2:]]
daywindset=[weather.find_all('td')[3].string for weather in weatherhtml.find_all('table')[0].find_all('tr')[2:]]
daytempset=[weather.find_all('td')[4].string for weather in weatherhtml.find_all('table')[0].find_all('tr')[2:]]
nightweatherset=[weather.find_all('td')[5].string for weather in weatherhtml.find_all('table')[0].find_all('tr')[2:]]
nightwindset=[weather.find_all('td')[6].string for weather in weatherhtml.find_all('table')[0].find_all('tr')[2:]]
nighttempset=[weather.find_all('td')[7].string for weather in weatherhtml.find_all('table')[0].find_all('tr')[2:]]
import pandas as pd
df=pd.DataFrame({'日期':dateset,'白天天气':dayweatherset,'白天风向':daywindset,'白天温度':daytempset,'晚上天气':nightweatherset,'晚上风向':nightwindset,'晚上温度':nighttempset})
import numpy as np
df.to_csv(r'C:\Users\Administrator\Desktop\天气.csv')
python自动化之爬虫原理及简单案例的更多相关文章
- python——flask常见接口开发(简单案例)
python——flask常见接口开发(简单案例)原创 大蛇王 发布于2019-01-24 11:34:06 阅读数 5208 收藏展开 版本:python3.5+ 模块:flask 目标:开发一个只 ...
- 爬虫之scrapy简单案例之猫眼
在爬虫py文件下 class TopSpider(scrapy.Spider): name = 'top' allowed_domains = ['maoyan.com'] start_urls = ...
- 使用python开发ansible自定义模块的简单案例
安装的版本ansible版本<=2.7,<=2.8是不行的哦 安装模块 pip install ansible==2.7 先导出环境变量 我们自定义模块的目录. 我存放的目录 export ...
- python自动化之爬虫模拟登录
http://selenium-python.readthedocs.io/locating-elements.html ####################################### ...
- python静态网页爬虫之xpath(简单的博客更新提醒功能)
直接上代码: #!/usr/bin/env python3 #antuor:Alan #-*- coding: utf-8 -*- import requests from lxml import e ...
- 爬虫之CrawlSpider简单案例之读书网
项目名py文件下 class DsSpider(CrawlSpider): name = 'ds' allowed_domains = ['dushu.com'] start_urls = ['htt ...
- 微软最强 Python 自动化工具开源了!不用写一行代码!
1. 前言 最近,微软开源了一款非常强大的 Python 自动化依赖库:playwright-python 它支持主流的浏览器,包含:Chrome.Firefox.Safari.Microsoft E ...
- 阿里最强 Python 自动化工具开源了!
1. 前言 大家好,我是安果! 最近,阿里内部开源了一个 iOS 端由 Python 编写的自动化工具,即:tidevice 它是一款跨平台的自动化开源工具,不依赖 Xcode 就可以启动 WebDr ...
- Python分布式爬虫原理
转载 permike 原文 Python分布式爬虫原理 首先,我们先来看看,如果是人正常的行为,是如何获取网页内容的. (1)打开浏览器,输入URL,打开源网页 (2)选取我们想要的内容,包括标题,作 ...
随机推荐
- Jmeter上传下载文件
每次使用时都会忘记,此处是存储网路上通用的方式. 1.上传文件 记得勾选“use multipart/form-data for post”,表明此请求包含文件信息.在信息请求头中,需加入“Con ...
- statefulSet + headless service 学习记录 service :selector --> template :label
1.statefulset.yaml apiVersion: apps/v1kind: StatefulSetmetadata: name: webspec: serviceName: &q ...
- js 获取当前页url网址信息
转载地址:js如何准确获取当前页面url网址信息 摘录: 举例一个URL,然后获得它的各个组成部分:http://i.cnblogs.com/EditPosts.aspx?opt=1 1.window ...
- chrome调试如何禁用浏览器缓存
0.写在前面的话 遇到过很多很多次,修改了页面代码,但是程序始终没有按照设想的方向走,有时候折腾了几个小时,发现问题最后却是莫名其妙恢复的.后来进一步调试发现,自己已经修改了如js代码,但是前端在载入 ...
- 开关电源五种PWM反馈控制模式
开关电源五种PWM反馈控制模式 来源:--作者:--浏览:178时间:2016-08-10 14:18 关键词: 1 引言 PWM开关稳压或稳流电源基本工作原理就是在输入电压变化.内部参数变化.外接负 ...
- UML类图(Unified Modeling Language Class Diagrams)
统一建模语言(UML) | 类图 什么是UML? UML是一种用于可视化描述系统,具有广泛用途的建模语言.作为一种标准化的图形语言,在软件工业中被用于软件系统部件的具体化,可视化,结构化描述以及撰写 ...
- BQMeetup
BQMeetup 时间:2017.12.19 地点:北京东城区东直门国华投资大厦1105
- 20155204《网络对抗》Exp8 Web基础
20155204<网络对抗>Exp8 Web基础 一.基础问题回答 1.什么是表单 表单在网页中主要负责数据采集功能.一个表单有三个基本组成部分: 表单标签:这里面包含了处理表单数据所用C ...
- flask登录注册简单的例子
1.主程序 # app.py # Auther: hhh5460 # Time: 2018/10/05 # Address: DongGuan YueHua from functools import ...
- Express模版引擎hbs备忘
最近几天折腾了下express,想找个合适的模版引擎,下面是一些折腾过程的备忘 选择标准 选择一门模版语言时,可能会考虑的几点 语法友好(micro tmpl那种语法真是够了) 支持模版嵌套(子模版的 ...