Beautisoup库
所看视频: https://www.bilibili.com/video/av9784617/?p=34
一, Beautifulsoup是一个可以从HTML或XML文件中提取数据的Python库,它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式
二,安装: pipenv install beautifulsoup4
import requests
from bs4 import BeautifulSoup r = requests.get('https://python123.io/ws/demo.html')
demo = r.text
# print(demo) soup = BeautifulSoup(demo, 'html.parser')
print(soup.prettify())
三,Beautiful Soup库的基本元素:
"""
Beautifulsoup类的基本元素:
1)标签: tag 最基本的信息组织单元, 分别用<>和</>标明开头和结尾
2)标签的名字: Name soup.标签.name
3)Attributes: 标签的属性, 字典形式组织, 格式 标签.attrs
4)NavigableString: 标签内非属性字符串, 标签.string
5)Comment: 标签内字符串的注释部分, 一种特殊的Comment类型
"""
# beautifulsoup 库的基本元素
# 获取 .a标签 第一个.a标签
# print(soup.a)
# 获取 title
# print(soup.title) # 获取a标签的名字
# print(soup.a.name)
# 获取a标签的父亲的名字
# print(soup.a.parent.name)
# 查看a标签的属性
# print(soup.a.attrs) # 字典格式
# print(soup.a.attrs['class'])
# print(type(soup.a.string)) # 有comment(注释)部分的处理
b = BeautifulSoup("<b><!--This is a comment --></b>", 'html.parser')
print(type(soup.b.string)) #
四,基于bs4的HTML内容遍历方法
# 基于bs4库的HTML内容遍历方法
"""
标签数的下行遍历
.contents 子节点的列表, 将<tag>所有儿子节点存入列表
.children 子节点的迭代类型,与.contents类似,用于循环遍历儿子节点
.descendants 子节点的迭代类型, 包含所有子孙节点,用于循环遍历
"""
# 获取head 和body的儿子节点
contens = soup.head.contents
body_list = soup.body.contents
# print(body_list[1]) # 遍历儿子节点
# for child in soup.body.children:
# print(child)
# # 遍历子孙节点:
# for child in soup.body.descendants:
# print(child) """
标签数的上行遍历
.parent 节点的父亲标签
.parents 节点先辈标签的迭代类型,用于循环遍历先辈节点
"""
# print(soup.head.parent)
# print(soup.head.parents) """
标签数的平行遍历 (条件 必须是一个父亲节点下的)
.next_sibling 返回按照HTML文本顺序的下一个平行节点标签
.previous_sibling 返回按照HTML文本顺讯的上一个平行节点标签
.next_siblings: 迭代类型, 返回按照HTML顺序的后续所有平行节点标签
.previous_siblings: 迭代类型, 返回按照HTML顺序的前序所有平行节点标签
"""
五,信息标记的三种形式:
1)xml: 最早的通用信息标记语言, 可扩展性好,但繁琐
2)json:信息有类型,适合程序处理(js), 较XML简洁
3)YAML: 无类型键值对, 文本信息比例最高
六,基于bs4库的HTML内容查找方法
1)find_all(name, attr, recursive, string, **kwargs)
返回一个类表类型,存储查找的结果
name: 对标签名称的检索字符串
attrs: 对标签属性值的检索字符串, 可标注属性检索
recursive: 是否对子孙全部检索, 默认为True
string:soup.find_all(string = 'Basic Python) 扩展方法:
1)<>.find(): 搜索且只返回一个结果,字符串类型,同.find_all()参数
2)<>.find_parents():在先辈节点中搜索,返回列表类型, 同find_all()参数
3)<>.find_parent(): 在先辈节点中返回一个结果, 字符串类型
4)<>.find_next_siblings():后续平行节点中搜索,返回列表类型
5)<>.find_next_sibling():后续平行节点返回一个结果,字符串类型
6)<>.find_previous_siblings(): 前序平行节点搜索,返回列表
7)<>.find_previous_sibling():前序平行节点返回一个结果,字符串类型
七,爬去最好大学 实例
def getHTMLText(url): # 从网络上获取大学排名网页内容 try:
r = requests.get(url, timeout=30)
r.raise_for_status()
r.encoding = r.apparent_encoding
# print(r.text)
return r.text
except:
return '' def fillUniversList(ulist, html): # 提取HTML核心信息 到合适的数据结构
soup = BeautifulSoup(html, 'html.parser')
for tr in soup.find('tbody').children:
if isinstance(tr, bs4.element.Tag): # 检测标签的类型
tds = tr('td')
ulist.append([tds[0].string, tds[1].string, tds[2].string]) def printUniversList(ulist, num): # 利用数据结构展示并输出结果
tplt = "{0:^10}\t{1:{3}^10}\t{2:^20}" # {3}表示使用中文来填充
print(tplt.format('排名', '学校', '分数', chr(12288))) # 中文对齐问题
for i in range(num):
u = ulist[i]
print(tplt.format(u[0], u[1], u[2], chr(12288))) def main():
unifo = []
url = 'http://www.zuihaodaxue.com/zuihaodaxuepaiming2018.html'
html = getHTMLText(url)
fillUniversList(unifo, html)
printUniversList(unifo, 20)
main()
Beautisoup库的更多相关文章
- 菜鸟Python学习笔记第一天:关于一些函数库的使用
2017年1月3日 星期二 大一学习一门新的计算机语言真的很难,有时候连函数拼写出错查错都能查半天,没办法,谁让我英语太渣. 关于计算机语言的学习我想还是从C语言学习开始为好,Python有很多语言的 ...
- TinyWeb v1.0 正式完成第一个Release版本(功能基于 libuv 跨平台库)
使用方法很简单,很容易融入现有项目,使现有项目拥有Web网站功能和WebSocket,以及Socket直连! 并且包含了一个跨平台(windows/linux)工具集合; 嗯,也挺棒的^,^ 在项目中 ...
- 在 Laravel 中使用图片处理库 Integration/Image
系统需求 PHP >= 5.3 Fileinfo Extension GD Library (>=2.0) … or … Imagick PHP extension (>=6.5.7 ...
- [APUE]标准IO库(下)
一.标准IO的效率 对比以下四个程序的用户CPU.系统CPU与时钟时间对比 程序1:系统IO 程序2:标准IO getc版本 程序3:标准IO fgets版本 结果: [注:该表截取自APUE,上表中 ...
- [APUE]标准IO库(上)
一.流和FILE对象 系统IO都是针对文件描述符,当打开一个文件时,即返回一个文件描述符,然后用该文件描述符来进行下面的操作,而对于标准IO库,它们的操作则是围绕流(stream)进行的. 当打开一个 ...
- Python标准库--typing
作者:zhbzz2007 出处:http://www.cnblogs.com/zhbzz2007 欢迎转载,也请保留这段声明.谢谢! 1 模块简介 Python 3.5 增加了一个有意思的库--typ ...
- Windows 常用运行库下载 (DirectX、VC++、.Net Framework等)
经常听到有朋友抱怨他的电脑运行软件或者游戏时提示缺少什么 d3dx9_xx.dll 或 msvcp71.dll.msvcr71.dll又或者是 .Net Framework 初始化之类的错误而无法正常 ...
- vs2010静态链接MFC库报链接错误
由于需要将MFC程序在其它电脑上运行,所以需要将动态链接的MFC改成静态链接,本以为很简单,没想到链接的时候出现下面的链接错误: uafxcw.lib(afxmem.obj) : error LNK2 ...
- Android 5.0 到 Android 6.0 + 的深坑之一 之 .so 动态库的适配
(原创:http://www.cnblogs.com/linguanh) 目录: 前序 一,问题描述 二,为何会如此"无情"? 三,目前存在该问题的知名SDK 四,解决方案,1 对 ...
随机推荐
- Ansible - 配置文件
概述 再水一发 ref Ansible Configuration Settings 1. 查看 概述 查看 配置文件 的默认位置 命令 > ansible --version 结果 confi ...
- MySQL表的操作02
[1]设置非空约束(NOT NULL ,NK)--->>>目的是f防止某些字段中的内容为空 CREATE TABLE +table_name ( 属性名 数据类型 NOT N ...
- 搭建 VUE + NODE.JS + ElementUI 学习过程中问题总结
1.exports 和 module.exports require 用来加载代码,而 exports 和 module.exports 则用来导出代码. module.exports 初始值为一个空 ...
- 后台接口报500,前端获取报错详情message
最近和前端对接口的时候,前端说后台接口报500,不能获取里面的东西,然后就开始了这个研究,网上查了一些资料,发现报500里面的报错详情是可以获取的. 前端在调用接口的时候,加个catch,注意!!!这 ...
- 中国大学MOOC 邮箱验证的问题
在使用 中国大学 MOOC 过程中,在PC端修改个人资料时,其中有项“常用邮箱”,于是写了QQ邮箱,结果发现一直无法验证,连邮件都无法收到. 经过多番尝试,重新使用邮箱注册的方式注册账号,然后注册成功 ...
- 激活windows系统
1.下载KMS 2.如图所示,双击KMSpico看是否正常运行 3.双击KMSpico正常后出现以下界面 4.点击红色按钮 5.等自动退出就是激活成功,大概半年需要激活一次
- Win下PHP5.6版本安装redis扩展
首先说一下自己的环境啥的,我用的是phpstudy,其实没啥大用,就是看你的php版本啥的 1.运行phpinfo(),查看php的信息,php的位数和扩展信息,和要下载的扩展文件信息有关, 2.下载 ...
- hybird怎么实现的(核心webview)
链接:https://blog.csdn.net/gongch0604/article/details/80510005
- BFS和DFS详解以及java实现(转载)
作者:Leo-Yang 原文都先发布在作者个人博客:http://www.leoyang.net/ 本文版权归作者和博客园共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出原文连 ...
- ios 底部用定位 fixed。在软件盘出来后,页面元素被顶上去一部分,fixed定位的footer也跑到了上面去。解决方法
ios 底部用定位 fixed.在软件盘出来后,页面元素被顶上去一部分,fixed定位的footer也跑到了上面去.解决方法 $("input").focus(function() ...