读BeautifulSoup官方文档之html树的搜索(2)

除了find()和find_all(), 这里还提供了许多类似的方法我就细讲了, 参数和用法都差不多, 最后四个是next, previous是以.next/previous_element()来说的...

Signature: find_parents(name, attrs, string, limit, **kwargs)

Signature: find_parent(name, attrs, string, **kwargs)

Signature: find_next_siblings(name, attrs, string, limit, **kwargs)

Signature: find_next_sibling(name, attrs, string, **kwargs)

Signature: find_previous_siblings(name, attrs, string, limit, **kwargs)

Signature: find_previous_sibling(name, attrs, string, **kwargs)

Signature: find_all_next(name, attrs, string, limit, **kwargs)

Signature: find_next(name, attrs, string, **kwargs)

Signature: find_all_previous(name, attrs, string, limit, **kwargs)

Signature: find_previous(name, attrs, string, **kwargs)

BeautifulSoup也提供CSS选择器, 用法大致与css选择器相同, 我css也只是入门级别, 这里就不多解释了... :

 soup.select("title")

 # [<title>The Dormouse's story</title>]

 soup.select("p nth-of-type(3)")

 # [<p class="story">...</p>]

 soup.select("body a")

 # [<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,

 #  <a class="sister" href="http://example.com/lacie"  id="link2">Lacie</a>,

 #  <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]

 soup.select("html head title")

 # [<title>The Dormouse's story</title>]

 soup.select("head > title")

 # [<title>The Dormouse's story</title>]

 soup.select("p > a")

 # [<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,

 #  <a class="sister" href="http://example.com/lacie"  id="link2">Lacie</a>,

 #  <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]

 soup.select("p > a:nth-of-type(2)")

 # [<a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>]

 soup.select("p > #link1")

 # [<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>]

 soup.select("body > a")

 # []

 #上面好像看懂了, 应该是 > 的话就是必须是孩子, 空格的话表示子孙.

 soup.select("#link1 ~ .sister")

 # [<a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>,

 #  <a class="sister" href="http://example.com/tillie"  id="link3">Tillie</a>]

 soup.select("#link1 + .sister")

 # [<a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>]

 soup.select(".sister")

 # [<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,

 #  <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>,

 #  <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]

 soup.select("#link1")

 # [<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>]

 soup.select("a#link2")

 # [<a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>]

 #下面好像是通过id寻找 :

 soup.select("#link1")

 # [<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>]

 soup.select("a#link2")

 # [<a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>]

 #匹配任意一个

 soup.select(“#link1,#link2”)

 # [<a class=”sister” href=”http://example.com/elsie” id=”link1”>Elsie</a>,

 # <a class=”sister” href=”http://example.com/lacie” id=”link2”>Lacie</a>]

 #当然可以用属性的值来匹配

 soup.select('a[href="http://example.com/elsie"]')

 # [<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>]

 soup.select('a[href^="http://example.com/"]')

 # [<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,

 #  <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>,

 #  <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]

 soup.select('a[href$="tillie"]')

 # [<a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]

 soup.select('a[href*=".com/el"]')

 # [<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>]

 #这个真看不懂

 multilingual_markup = """

  <p lang="en">Hello</p>

  <p lang="en-us">Howdy, y'all</p>

  <p lang="en-gb">Pip-pip, old fruit</p>

  <p lang="fr">Bonjour mes amis</p>

 """

 multilingual_soup = BeautifulSoup(multilingual_markup)

 multilingual_soup.select('p[lang|=en]')

 # [<p lang="en">Hello</p>,

 #  <p lang="en-us">Howdy, y'all</p>,

 #  <p lang="en-gb">Pip-pip, old fruit</p>]

 #选一个可以用select_one()

 soup.select_one(".sister")

 # <a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>

读BeautifulSoup官方文档之html树的搜索(2)的更多相关文章

读BeautifulSoup官方文档之html树的搜索(1)
之前介绍了有关的四个对象以及他们的属性, 但是一般情况下要在杂乱的html中提取我们所需的tag(tag中包含的信息)是比较复杂的, 现在我们可以来看看到底有些什么搜索的方法. 最主要的两个方法当然是 ...
读BeautifulSoup官方文档之html树的打印
prettify()能返回一个格式良好的html的Unicode字符串 : markup = '<a href="http://example.com/">I link ...
读BeautifulSoup官方文档之html树的修改
修改html树无非是对其中标签的改动, 改动标签的名字(也就是类型), 属性和标签里的内容... 先讲这边提供了很方便的方法来对其进行改动... soup = BeautifulSoup('<b ...
读BeautifulSoup官方文档之与bs有关的对象和属性(1)
自从10号又是5天没更, 是, 我再一次断更... 原因是朋友在搞python, 老问我问题, 我python也是很久没碰了, 于是为了解决他的问题, 我只能重新开始研究python, 为了快速找回感 ...
读BeautifulSoup官方文档之与bs有关的对象和属性(2)
上一节说到tag, 这里接着讲, tag有个属性叫做string, tag.string其实就是我们要掌握的四个对象中的第二个 ---- NavigableString, 它代表的是该tag内的te ...
读BeautifulSoup官方文档之与bs有关的对象和属性(3)
上一节说到.string的条件很苛刻, 如果某个tag里面包含了超过一个children, 就会返回None, 但是这里提供另外一种方式 .strings, 它返回的是一个generator, 比如对 ...
读vue-cli3 官方文档的一些学习记录
原来一直以为vue@cli3 就是创建模板的工具,读了官方文档才知道原来这么有用,不少配置让我长见识了 Prefetch 懒加载配置懒加载相信大家都是知道的,使用Import() 语法就可以在需要的 ...
Beautifulsoup官方文档
Beautiful Soup 中文文档原文 by Leonard Richardson (leonardr@segfault.org) 翻译 by Richie Yan (richieyan@gma ...
读jQuery官方文档：$(document).ready()与避免冲突
$(document).ready() 通常你想在DOM结构加载完毕之后才执行相关脚本.使用原生JavaScript,你可能调用window.onload = function() { ... }, ...

随机推荐

php实现句子逆序（需求才是最好的老师）
php实现句子逆序(需求才是最好的老师) 一.总结一句话总结:需求才是最好的老师. 1.str_split()和explode()的区别? explode — 使用一个字符串分割另一个字符串 3 ...
js进阶正则表达式8量词（+*？{}的意义用法）（量词的对象是前面一个字符）
js进阶正则表达式8量词(+*?{}的意义用法)(量词的对象是前面一个字符) 一.总结 1.量词的对象是前面一个字符量词描述 n+ 匹配任何包含至少一个 n 的字符串. n* 匹配任何包含零个或多 ...
keepalived小结
keepalived 启动流程: 启动三个进程(主进程.healthcheck 进程.vrrp进程)之后,先进入backup状态,运行一次vrrp_script成功后发现没有主,这时候会进入maste ...
Gibbs 采样定理的若干证明
坐标平面上的三点,A(x1,y1),B(x1,y2),C(x2,y1),假设有概率分布 p(x,y)(P(X=x,Y=y) 联合概率),则根据联合概率与条件概率的关系,则有如下两个等式: {p(x1, ...
JS类型转换规则详解
JS类型转换规则详解一.总结一句话总结:JS强制类型转换中的类型名强制类型转换和其它语言不同,是类型类的构造方法,Number(mix) 一句话总结(JS类型本质):因为js是弱类型语言,所以它相 ...
CSU1323: ZZY and his little friends
Description zzy养了一只小怪兽和N只凹凸曼,单挑的话每只凹凸曼都不是小怪兽的对手,所以必须由两只凹凸曼合作来和小怪兽战斗.凹凸曼A和凹凸曼B合作的战斗力为他们战斗力的异或值.现在由zzy ...
深度学习框架 —— tflearn 的学习
1. tflearn.data_utils from tflearn.data_utils import to_categorical one_hot 编码: 第一个参数为属性列,第二个参数接受类别个 ...
kettle的job中运行每行
job中运行每行有时,我们须要job或转换执行多次.且每次传入的參数都不同.假如你正在做数据迁移的工作,须要导入每天的旧数据,则须要一个job依据指定的日期导入数据,该日期被指定作为參数.假设 ...
array=nil 和 Array=[[NSMutableArray alloc]init]; 的区别
情况1: array=nil; [_PayArray addObject:BillDetail]; 此时array还是nil:因为array没有分配地址应该. 情况2: Array=[[NSMutab ...
容易遗忘的JS知识点整理—hasOwnProperty相关
为了判断一个对象是否包含自定义属性而不是原型链上的属性,我们需要使用继承自 Object.prototype 的 hasOwnProperty方法.hasOwnProperty 是 JavaScrip ...

读BeautifulSoup官方文档之html树的搜索(2)

读BeautifulSoup官方文档之html树的搜索(2)的更多相关文章

随机推荐

热门专题