该库能够解析HTML和XML
使用Beautiful Soup库:     
from bs4 import BeautifulSoup

import requests

r = requests.get('http://www.23us.so/')
html = r.text soup = BeautifulSoup(html,'html.parser') print soup.prettify()
1、Beautiful Soup库的理解
HTML文件其实就是由一组尖括号构成的标签组织起来的,每一对尖括号形式一个标签,标签之间存在上下关系,形成标签树;因此可以说Beautiful Soup库是解析、遍历、维护“标签树”的功能库。
p标签:<p></p>:标签Tag ——一般,标签名都是成对出现的(位于起始和末尾),例如P;在第一个标签名之后可以有0到多个属性,表示标签的特点
<p class="title">...</p>——中间的class属性,其值为“title ”(属性是由键和值,键值对构成的)
 
通常,Beautiful Soup库的使用:
     from bs4 import BeautifulSoup     #主要使用BeautifulSoup类
事实上可以认为:HTML文档和标签树,BeautifulSoup类是等价的
Beautiful Soup库解析器:
bs4的HTML解析器:BeautifulSoup(mk,'html.parser')——条件:安装bs4库
lxml的HTML解析器:BeautifulSoup(mk,'lxml')——pip install lxml
lxml的XML解析器:BeautifulSoup(mk,'xml')——pip install lxml
html5lib的解析器:BeautifulSoup(mk,'html5lib')——pip install html5lib
Beautiful Soup类的基本元素:
1、Tag——标签,最基本的信息组织单元,分别用<>和</>表明开头和结尾
2、Name——标签的名字,<p>...</p>的名字是'p',格式:<tag>.name
3、Attributes——标签的属性,字典形式组织,格式:<tag>.attrs
4、NavigableString——标签内非属性字符串,<>...</>中的字符串,格式:<tag>.string
5、Comment——标签内字符串的注释部分,一种特殊的Comment类型(尖括号叹号表示注释开始:<!--This is a commet-->)
获取标签的方法:

from bs4 import BeautifulSoup

soup = BeautifulSoup(demo,'html.parser')
soup.a.name          #a标签的名字
soup.a.parent.name     #a标签的父标签的名字
soup.a.parent.parent.name       #a标签的父标签的父标签名字
tag = soup.a
tag.attrs         #a标签的属性
soup.a.string      #获得a标签内非属性字符串(NavigableString )注意:soup.b.string也可能是获得Comment标签;可都过类型进行判断
 
2、基于bs4库的HTML内容遍历方法
形成了三种遍历:

标签树的下行遍历

  1. .contents属性:子节点的列表,将<tag>所有儿子节点存入列表
  2. .children属性:子节点的迭代类型,与.contents类似,用于循环遍历儿子节点
  3. .descendants属性:子孙节点的迭代类型,包含所有子孙节点,用于循环遍历
 
也就是说:contents和children只获得当前节点的下一节点的信息;而descendants可以获得当前节点的所有后续节点信息
注意:字符串也属于一个节点,例如'\n','and'
 遍历儿子节点
for child in soup.body.children:        #迭代类型,需要用循环方式
     print(child)
遍历子孙节点
for child in soup.body.descendants:
     print(child)
from bs4 import BeautifulSoup       #beautifulsoup4库使用时是简写的bs4
import requests
r = requests.get('http://python123.io/ws/demo.html')
demo = r.text
soup = BeautifulSoup(demo,'html.parser') #解析器:html.parser
child = soup.body.contents
print(child)
for child in soup.body.descendants:
print(child)
 
标签树的上行遍历
  1. .parent属性:节点的父标签
  2. parents属性:节点先辈标签的迭代类型,用于循环遍历先辈节点
注意:在遍历一个标签的所有先辈标签时,会遍历到soup本身,而soup的先辈不存在(也就是None),因此也就没有.name信息
标签树的平行遍历
注意:平行遍历是有条件的,平行遍历必须发生在同一个父节点下的各节点间
soup.a.next_sibling
soup.a.previous_sibling
for sibling in soup.a.next_siblings:
     print(sibling)
 
for sibling in soup.a.previous_siblings:
     print(sibling)
 
3、基于bs4库的HTML格式输出
如何能够让html内容更加“友好”的显示:
bs4库的prettify()方法:为html文本的标签以及内容增加换行符,也可以对标签做相关处理,例如soup.a.prettify()
该库能够解析HTML和XML
使用Beautiful Soup库:     
    from bs4 import BeautifulSoup 
     soup = BeautifulSoup('<p>data</p>', 'html.parser')       #html解析器:html.parser ,前一个参数则是要解析的内容
小测:
from bs4 import BeautifulSoup       #beautifulsoup4库使用时是简写的bs4
import requests
r = requests.get('http://python123.io/ws/demo.html')
demo = r.text
soup = BeautifulSoup(demo,'html.parser') #解析器:html.parser
print(soup.prettify()) #打印解析好的内容
       
 
1、Beautiful Soup库的理解
HTML文件其实就是由一组尖括号构成的标签组织起来的,每一对尖括号形式一个标签,标签之间存在上下关系,形成标签树;因此可以说Beautiful Soup库是解析、遍历、维护“标签树”的功能库。
p标签:<p></p>:标签Tag ——一般,标签名都是成对出现的(位于起始和末尾),例如P;在第一个标签名之后可以有0到多个属性,表示标签的特点
<p class="title">...</p>——中间的class属性,其值为“title ”(属性是由键和值,键值对构成的)
 
通常,Beautiful Soup库的使用:
     from bs4 import BeautifulSoup     #主要使用BeautifulSoup类
事实上可以认为:HTML文档和标签树,BeautifulSoup类是等价的
Beautiful Soup库解析器:
bs4的HTML解析器:BeautifulSoup(mk,'html.parser')——条件:安装bs4库
lxml的HTML解析器:BeautifulSoup(mk,'lxml')——pip install lxml
lxml的XML解析器:BeautifulSoup(mk,'xml')——pip install lxml
html5lib的解析器:BeautifulSoup(mk,'html5lib')——pip install html5lib
Beautiful Soup类的基本元素:
1、Tag——标签,最基本的信息组织单元,分别用<>和</>表明开头和结尾
2、Name——标签的名字,<p>...</p>的名字是'p',格式:<tag>.name
3、Attributes——标签的属性,字典形式组织,格式:<tag>.attrs
4、NavigableString——标签内非属性字符串,<>...</>中的字符串,格式:<tag>.string
5、Comment——标签内字符串的注释部分,一种特殊的Comment类型(尖括号叹号表示注释开始:<!--This is a commet-->)
获取标签的方法:

from bs4 import BeautifulSoup

soup = BeautifulSoup(demo,'html.parser')
soup.a.name          #a标签的名字
soup.a.parent.name     #a标签的父标签的名字
soup.a.parent.parent.name       #a标签的父标签的父标签名字
tag = soup.a
tag.attrs         #a标签的属性
soup.a.string      #获得a标签内非属性字符串(NavigableString )注意:soup.b.string也可能是获得Comment标签;可都过类型进行判断
 
2、基于bs4库的HTML内容遍历方法
形成了三种遍历:

标签树的下行遍历

  1. .contents属性:子节点的列表,将<tag>所有儿子节点存入列表
  2. .children属性:子节点的迭代类型,与.contents类似,用于循环遍历儿子节点
  3. .descendants属性:子孙节点的迭代类型,包含所有子孙节点,用于循环遍历
 
也就是说:contents和children只获得当前节点的下一节点的信息;而descendants可以获得当前节点的所有后续节点信息
注意:字符串也属于一个节点,例如'\n','and'
 遍历儿子节点
for child in soup.body.children:        #迭代类型,需要用循环方式
     print(child)
遍历子孙节点
for child in soup.body.descendants:
     print(child)
 
from bs4 import BeautifulSoup       #beautifulsoup4库使用时是简写的bs4
import requests
r = requests.get('http://python123.io/ws/demo.html')
demo = r.text
soup = BeautifulSoup(demo,'html.parser')    #解析器:html.parser
child = soup.body.contents
print(child)
for child in soup.body.descendants:
    print(child)
 
标签树的上行遍历
  1. .parent属性:节点的父标签
  2. parents属性:节点先辈标签的迭代类型,用于循环遍历先辈节点
注意:在遍历一个标签的所有先辈标签时,会遍历到soup本身,而soup的先辈不存在(也就是None),因此也就没有.name信息
标签树的平行遍历
注意:平行遍历是有条件的,平行遍历必须发生在同一个父节点下的各节点间
soup.a.next_sibling
soup.a.previous_sibling
for sibling in soup.a.next_siblings:
     print(sibling)
 
for sibling in soup.a.previous_siblings:
     print(sibling)
 
3、基于bs4库的HTML格式输出
如何能够让html内容更加“友好”的显示:
bs4库的prettify()方法:为html文本的标签以及内容增加换行符,也可以对标签做相关处理,例如soup.a.prettify()

【转载】Beautiful Soup库(bs4)入门的更多相关文章

  1. Beautiful Soup库入门

    1.安装:pip install beautifulsoup4 Beautiful Soup库是解析.遍历.维护“标签树”的功能库 2.引用:(1)from bs4 import BeautifulS ...

  2. Beautiful Soup库基础用法(爬虫)

    初识Beautiful Soup 官方文档:https://www.crummy.com/software/BeautifulSoup/bs4/doc/# 中文文档:https://www.crumm ...

  3. Python Beautiful Soup库

    Beautiful Soup库 Beautiful Soup库:https://www.crummy.com/software/BeautifulSoup/ 安装Beautiful Soup: 使用B ...

  4. crawler碎碎念4 关于python requests、Beautiful Soup库、SQLlite的基本操作

    Requests import requests from PIL import Image from io improt BytesTO import jason url = "..... ...

  5. 【Python爬虫学习笔记(3)】Beautiful Soup库相关知识点总结

    1. Beautiful Soup简介     Beautiful Soup是将数据从HTML和XML文件中解析出来的一个python库,它能够提供一种符合习惯的方法去遍历搜索和修改解析树,这将大大减 ...

  6. python beautiful soup库的超详细用法

    原文地址https://blog.csdn.net/love666666shen/article/details/77512353 参考文章https://cuiqingcai.com/1319.ht ...

  7. python之Beautiful Soup库

    1.简介 简单来说,Beautiful Soup是python的一个库,最主要的功能是从网页抓取数据.官方解释如下: Beautiful Soup提供一些简单的.python式的函数用来处理导航.搜索 ...

  8. Beautiful Soup库介绍

    开始前需安装Beautiful Soup 和lxml. Beautiful Soup在解析时依赖解析器,下表列出bs4支持的解析器. 解析器 使用方法 Python标准库 BeautifulSoup( ...

  9. Beautiful Soup库

    原文传送门:静觅 » Python爬虫利器二之Beautiful Soup的用法

随机推荐

  1. 【BZOJ2460】元素(贪心,线性基)

    [BZOJ2460]元素(贪心,线性基) 题面 BZOJ Description 相传,在远古时期,位于西方大陆的 Magic Land 上,人们已经掌握了用魔 法矿石炼制法杖的技术.那时人们就认识到 ...

  2. 【NOIP2017】宝藏(状态压缩,动态规划)

    [NOIP2017]宝藏(状态压缩,动态规划) 题面 洛谷 题目描述 参与考古挖掘的小明得到了一份藏宝图,藏宝图上标出了 n 个深埋在地下的宝藏屋, 也给出了这 n 个宝藏屋之间可供开发的 m 条道路 ...

  3. mysqldump备份恢复

    数据库的备份恢复是DBA的必修课,本文首先讲解mysqldump完整备份恢复的操作方法,演示数据库完整备份的基本过程.然后再模拟数据库遭遇灾难性破坏,配合bin-log日志实验数据库灾难性恢复的步骤. ...

  4. 【linux】/dev/null与/dev/zero详解

    引用别人的资源,收藏: http://www.cnblogs.com/xianghang123/archive/2012/03/23/2413381.html

  5. 【bzoj3170】[Tjoi2013]松鼠聚会

    3170: [Tjoi2013]松鼠聚会 Time Limit: 10 Sec  Memory Limit: 128 MBSubmit: 1670  Solved: 885[Submit][Statu ...

  6. 【bzoj4372】烁烁的游戏

    Portal -->bzoj4372 Solution 感觉自己动态点分治好像没有学好qwq今天借这题来补个档qwq 其实所谓的动态点分治大概就是..和点分一样的套路,但是不同的是我们要更进一步 ...

  7. 【learning】01分数规划

    问题描述 首先分数规划是一类决策性问题 一般形式是: \[ \lambda=\frac{f(x)}{g(x)} \] 其中\(f(x)\)和\(g(x)\)都是连续的实值函数,然后要求\(\lambd ...

  8. 【线段树】【CF19D】 Points

    传送门 Description 在一个笛卡尔坐标系中,定义三种操作: \(add(x,y)\),将点\((x,y)\)标记在坐标系上 \(find(x,y)\),查询点\((x,y)\)严格右上方中, ...

  9. git查看/修改 用户名和邮箱

    用户名和邮箱地址的作用 用户名和邮箱地址是本地git客户端的一个变量,不随git库而改变. 每次commit都会用用户名和邮箱纪录. github的contributions统计就是按邮箱来统计的. ...

  10. 25、Python垃圾回收机制?

    Python的GC模块主要运用了“引用计数”(reference counting)来跟踪和回收垃圾.在引用计数的基础上,还可以通过“标记-清除”(mark and sweep)解决容器对象可能产生的 ...