BeautifulSoup的find()和findAll()

BeautifulSoup的提供了两个超级好用的方法（可能是你用bs方法中最常用的）。借助这两个函数，你可以通过表现的不同属性轻松过滤HTML（XML）文件,查找需要的标签组或单个标签。

首先find(),findAll()是当有了bs对象之后，获取标签组或者单个标签的函数。find()找到第一个满足条件的标签就返回，findAll()找到所有满足条件的标签返回。

看一下两个函数的参数,findAll多了一个limit参数。 #参数不是每次用的时候需要把所有参数都要写出来

findAll(tag,atributes,recursive,text,limit,keywords)

find(tag,atributes,recursive,text,keywords)

实例中多用findAll()函数，因为find()函数只返回一个，没有代表性。

①参数tag，可以使用参数tag表明需要查找的标签类型，tag可以是多个：

.findAll({'h1'}) #返回h1标签列表

.findAll({'h1','h2','h3'}) #返回h1-h3标题标签列表

.findAll({'h1','h2','h3','h4','h5','h6','h7'}) #返回所有标题标签的列表

②参数attribute，使用标签内的若干属性对应的属性值进行标签查找，属性值可以是多个

.findAll('span',{'class':{'green','red'}})  #返回class属性为red和green的span标签列表

③参数recursive，是否使用递归方法遍历每一个子标签，默认是开启，True。如果设置为False，findAll()只查找文档的一级标签。一般使用中，不用去动这个参数

④参数text，根据标签的文本内容去查找标签列表，通常配合正则表达式使用

nameList = bsObj.findAll(text='the prince') #匹配所有标签文本内容为‘the prince’的标签列表

nameList = bsObj.findAll(text=re.compile('the*')) #匹配所有标签文本内容为‘the’开头的标签列表，使用了正则表达式re，正则表达式在此文中不做讲解

⑤参数limit，范围限制参数，显然只能用于findAll()函数。就是限定返回的个数，比如要抽取多少个标签信息做样本之类的

⑥参数keyword，标签内指定属性的标签列表#与attribute参数相似，有一个例外就是用class属性查找标签的时候，直接findAll（class=‘green’）会报错，因为class是保留字

bsObj.findAll(id='text')

bsObj.findAll(class='text')  #会报错
bsObj.findAll（class_='text'）解决方案

BeautifulSoup的find()和findAll()的更多相关文章

python学习之----BeautifulSoup的find()和findAll()及四大对象
BeautifulSoup 里的find() 和findAll() 可能是你最常用的两个函数.借助它们,你可以通过标签的不同属性轻松地过滤HTML 页面,查找需要的标签组或单个标签. 这两个函数非常 ...
Python中BeautifulSoup中对HTML标签的提取
一开始使用了beautifulSoup的get_text()进行字符串的提取,后来一直提取失败,并提示错误为TypeError: 'NoneType' object is not callable 返 ...
BeautifulSoup爬网页图片
#-*- coding: utf-8 -*- import urllib2 import urllib import os from BeautifulSoup import BeautifulSou ...
使用BeautifulSoup 爬取一个页面上的所有的超链接
# !/usr/bin/python # -*-coding:utf-8-*- import urllib from bs4 import BeautifulSoup response = urlli ...
Python实例---beautifulsoup小Demo
豆瓣 # coding:utf - 8 from urllib.request import urlopen from bs4 import BeautifulSoup html = urlopen( ...
【Python学习】使用BeautifulSoup解析HTML
对于一个最简单的爬虫结构的代码是这样的. 也就是抓取出整个页面,然后创建一个BeautifulSoup对象. from urllib.request import urlopen from bs4 i ...
[python] 网络数据采集操作清单 BeautifulSoup、Selenium、Tesseract、CSV等
Python网络数据采集操作清单 BeautifulSoup.Selenium.Tesseract.CSV等 Python网络数据采集操作清单 BeautifulSoup.Selenium.Tesse ...
BeautifulSoup 爬虫
一安装BeautifulSoup 安装Python的包管理器pip 然后运行 $pip3 install beautifulsoup 在终端里导入它测试下是否安装成功 >>>fro ...
【Python数据分析】Python3多线程并发网络爬虫-以豆瓣图书Top250为例
基于上两篇文章的工作 [Python数据分析]Python3操作Excel-以豆瓣图书Top250为例 [Python数据分析]Python3操作Excel(二) 一些问题的解决与优化已经正确地实现 ...

随机推荐

Magic Trackpad 2 on win10 x64
可以使用操作: 触击触击拖拽双击支手滚动:上下,左右右键配置:左下角,右下角点击实现可以试用28天,收费 $9.5 官方地址:http://www.trackpadmagic.com/mag ...
并发系列（二）----Java内存模型
一简介在并发编程中,两个线程(A.B)同时操作一个普通变量的时候会出现线程A在操作变量时线程B也将变量操作了,此时线程A是无法感知变量发生变化的,造成变量改变错误.更据以上例子我们需要解决的问题就 ...
renren_fast性能测试平台的安装部署
1.从GitHub下载源码: https://github.com/zyanycall/stressTestPlatform git clone https://github.com/zyanycal ...
python中@property和property函数使用
1.基本的@property使用,可以把函数当做属性用 class Person(object): @property def get_name(self): print('我叫xxx') def m ...
AssetBundle一些问题
AssetBundle划分过细的问题,比如每个资源都是AssetBundle. 加载IO次数过多,从而增大了硬件设备耗能和发热的压力: Unity 5.3 ~ 5.5 版本中,Android平台上在不 ...
《杜增强讲Unity之Tanks坦克大战》7-坦克血条
7 坦克血条点击菜单GameObject->UI->Slider创建Slider 选中EventSystem,设置Horizontal Axis为HorzontalUI,Vertic ...
NO--11关于"this"你知道多少
为了更好地理解 this,将 this 使用的场景分成三类: 在函数内部 this 一个额外的,通常是隐含的参数. 在函数外部(顶级作用域中): 这指的是浏览器中的全局对象或者 Node.js 中一个 ...
011 --Mysql中特定查询
1.优化COUNT()查询 COUNT()可能是被大家误解最多的函数了,它有两种不同的作用,其一是统计某个列值的数量,其二是统计行数.统计列值时,要求列值是非空的,它不会统计NULL.如果确认括号中的 ...
React Native移动开发实战-4-Android平台的适配原理
打开Android开发工具Android Studio,选择菜单 Open an existing AndroidStudio project,打开ch04项目的android文件夹,如图5.8所示. ...
AlexNet——ImageNet Classification with Deep Convolutional Neural Networks
1. 摘要本文的模型采用了 5 层的卷积,一些层后面还紧跟着最大池化层,和 3 层的全连接,最后是一个 1000 维的 softmax 来进行分类. 为了减少过拟合,在全连接层采取了 dropout ...

BeautifulSoup的find()和findAll()

BeautifulSoup的find()和findAll()的更多相关文章

随机推荐

热门专题