python bs4 BeautifulSoup
Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库。bs4 模块的 BeautifulSoup 配合requests库可以写简单的爬虫。
安装
- 命令:pip install beautifulsoup4
解析器
- 主要的解析器,以及它们的优缺点如下:
安装命令:
- pip install lxml
- pip install html5lib
requests
- requests的底层实现就是urllib, requests能够自动帮助我们解压(gzip压缩的等)网页内容
- 安装命令:pip install requests
- 推荐使用 response.content.deocde() 的方式获取响应的html页面
pandas
- 安装命令:pip install pandas
- 基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。
数据结构:
- Series:一维数组,与Numpy中的一维array类似。二者与Python基本的数据结构List也很相近,其区别是:List中的元素可以是不同的数据类型,而Array和Series中则只允许存储相同的数据类型,这样可以更有效的使用内存,提高运算效率。
- Time- Series:以时间为索引的Series。
- DataFrame:二维的表格型数据结构。很多功能与R中的data.frame类似。可以将DataFrame理解为Series的容器。以下的内容主要以DataFrame为主。
- Panel :三维的数组,可以理解为DataFrame的容器。
使用
Beautiful Soup将复杂HTML文档转换成一个复杂的树形结构,每个节点都是Python对象,所有对象可以归纳为4种:
- Tag
- NavigableString
- BeautifulSoup
- Comment
Tag:Tag 对象与XML或HTML原生文档中的tag相同,tag中最重要的属性: name和attributes
从网页中获取指定标签、属性值,取值方式:
- 通过标签名获取:tag.name tag对应的type是<class 'bs4.element.Tag'>
- 通过属性获取:tag.attrs
- 获取标签属性:tag.get('属性名') 或 tag['属性名']
功能标签
- stripped_strings:输出的字符串中可能包含了很多空格或空行,使用 .stripped_strings 可以去除多余空白内容
- 标准输出页面:soup.prettify()
查找元素:
- find_all(class_="class") 返回的是多个标签
- find(class_="class") 返回一个标签
- select_one() 返回一个标签
- select() 返回的是多个标签
- soup = BeautifulSoup(backdata,'html.parser') #转换为BeautifulSoup形式属性
- soup.find_all('标签名',attrs{'属性名':'属性值'} ) #返回的是列表
- limitk 控制 find_all 返回的数量
- recursive=Flase 返回tag的直接子元素
demo
- import sys
- import io
- import requests
- from bs4 import BeautifulSoup as bs
- import pandas as pd
- import numpy as np
- from py_teldcore import sqlserver_db as db
- sys.stdout = io.TextIOWrapper(sys.stdout.buffer, encoding='gb18030')
- url = "http://www.tianqihoubao.com/lishi/hefei/month/201812.html"
- def get_soap():
- try:
- r = requests.get(url)
- soap = bs(r.text, "lxml")
- return soap
- except Exception as e:
- print(e)
- return "Request Error"
- def save2cvs(data, path):
- result_weather = pd.DataFrame(data, columns=['date', 'tq', 'temp', 'wind'])
- result_weather.to_csv(path, encoding='gbk')
- print('save weather sucess')
- def save2mssql(data):
- sql = "Insert into Weather(date, tq, temp, wind) values(%s, %s, %s, %s)"
- data_list = np.ndarray.tolist(data)
- # sqlvalues = list()
- # for data in data_list:
- # sqlvalues.append(tuple(data))
- sqlvalues = [tuple(iq) for iq in data_list]
- try:
- db.exec_sqlmany(sql, sqlvalues)
- except Exception as e:
- print(e)
- def get_data():
- soap = get_soap()
- print(soap)
- all_weather = soap.find("div", class_="wdetail").find("table").find_all("tr")
- data = list()
- for tr in all_weather[1:]:
- td_li = tr.find_all("td")
- for td in td_li:
- s = td.get_text()
- data.append("".join(s.split()))
- res = np.array(data).reshape(-1, 4)
- return res
- if __name__ == "__main__":
- data = get_data()
- save2mssql(data)
- print("save2 Sqlserver ok!")
参考资料
- https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html
- https://www.jianshu.com/p/95b1bc3b2f73
- http://cn.python-requests.org/zh_CN/latest/
- https://blog.csdn.net/qq_31903733/article/details/85269367
python bs4 BeautifulSoup的更多相关文章
- 【爬虫】python之BeautifulSoup用法
1.爬虫 网络爬虫是捜索引擎抓取系统的重要组成部分.爬虫的主要目的是将互联网上的网页下载到本地形成一个或联网内容的镜像备份.通过分析和过滤HTML 代码,实现对图片.文字等资源的获取. 2.pytho ...
- Python配合BeautifulSoup读取网络图片并保存在本地
本例为Python配合BeautifulSoup读取网络图片,并保存在本地. BeautifulSoup可代替正则表达式,更好地解析Html文本,获取其中的指定内容,如Tag.Property等 # ...
- Python -bs4介绍
https://cuiqingcai.com/1319.html Python -BS4详细介绍Python 在处理html方面有很多的优势,一般情况下是要先学习正则表达式的.在应用过程中有很多模块是 ...
- 【python】BeautifulSoup的应用
from bs4 import BeautifulSoup#下面的一段HTML代码将作为例子被多次用到.这是 爱丽丝梦游仙境的 的一段内容(以后内容中简称为 爱丽丝 的文档): html_doc = ...
- Python和BeautifulSoup进行网页爬取
在大数据.人工智能时代,我们通常需要从网站中收集我们所需的数据,网络信息的爬取技术已经成为多个行业所需的技能之一.而Python则是目前数据科学项目中最常用的编程语言之一.使用Python与Beaut ...
- Python【BeautifulSoup解析和提取网页数据】
[解析数据] 使用浏览器上网,浏览器会把服务器返回来的HTML源代码翻译为我们能看懂的样子 在爬虫中,也要使用能读懂html的工具,才能提取到想要的数据 [提取数据]是指把我们需要的数据从众多数据中挑 ...
- Python Download Image (python + requests + BeautifulSoup)
环境准备 1 python + requests + BeautifulSoup 页面准备 主页面: http://www.netbian.com/dongman/ 图片伪地址: http://www ...
- 搭建基于python +opencv+Beautifulsoup+Neurolab机器学习平台
搭建基于python +opencv+Beautifulsoup+Neurolab机器学习平台 By 子敬叔叔 最近在学习麦好的<机器学习实践指南案例应用解析第二版>,在安装学习环境的时候 ...
- Python库-BeautifulSoup
sp = BeautifulSoup.bs4.BeautifulSoup(html.text,"html.parser") 方法 1.sp.title 返回网页标题 2.sp.te ...
随机推荐
- SQL Server 默认跟踪(Trace)捕获事件详解
SQL Server 默认跟踪 -- 捕获事件详解 哪些具体事件默认跟踪文件能够捕获到? --returns full list of events SELECT * FROM sys.trace_e ...
- 专题-主存储器与Cache的地址映射方式
2019/05/02 10:23 首先,我们注意到地址映射有三种:分别是直接地址映射.全相联映射.组相联映射. 首先我们搞清楚主存地址还有Cache地址的关系,还有组内地址的关系,常见我们的块内地址, ...
- haproxy 配置文件详解 之 WEB监控平台
HAProxy 虽然实现了服务的故障转移,但是在主机或者服务出现故障的时候,并不能发出通知告知运维人员,这对于及时性要求很高的业务系统来说,是非常不便的,不过,HAProxy 似乎也考虑到了这一点,在 ...
- CSS 分割线
<!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8&quo ...
- Linux学习之编译运行.c(C语言)文件
在Linux命令行界面下,创建文件hello.c,进入vim编辑器,编辑一个简单的C语言文件 分解C语言文件执行过程,要经过预编译.编译.汇编.连接四个步骤后才能执行, 预编译:gcc -E hell ...
- SQL数据同步到ELK(四)- 利用SQL SERVER Track Data相关功能同步数据(上)
一.相关文档 老规矩,为了避免我的解释误导大家,请大家务必通过官网了解一波SQL SERVER的相关功能. 文档地址: 整体介绍文档:https://docs.microsoft.com/en-us/ ...
- 记一次Pr中视频蜜汁卡顿往复和解决方法
目录 问题 换素材的起因 灵异素材 无端联想 解决 问题 换素材的起因 本来视频剪了一晚剪完了,导出一看,好家伙,糊到上世纪.原来素材的像素大小都没法看,这视频素材我是从别人U盘拷过来的,可他竟然是用 ...
- stop容器,把信号量传给java进程,优雅退出
Java中可以添加ShutdownHook监听关闭事件,包括kill -15, control+c,terminal等信号.kill -9则接收不到. Runtime.getRuntime().add ...
- Idea 设置单击打开文件或者双击打开文件、自动定位文件所在的位置
以下定位,框架下,打开文件的点击方式,以及点击标签导航页上的已打开文件定位到展开路径,如下图:
- ASP.Net Core使用分布式缓存Redis从入门到实战演练
一.课程介绍 人生苦短,我用.NET Core!缓存在很多情况下需要用到,合理利用缓存可以一方面可以提高程序的响应速度,同时可以减少对特定资源访问的压力. 所以经常要用到且不会频繁改变且被用户共享的 ...