初识python 之爬虫：BeautifulSoup 的 find、find

from bs4 import BeautifulSoup

lxml 以lxml形式解析html，例：BeautifulSoup(html,'lxml') # 注：html5lib 容错率最高
find 返回找到的第一个标签
find_all 以list的形式返回找到的所有标签
limit 指定返回的标签个数
attrs 将标签属性放到一个字典中
string 获取标签下的非标签字符串(值), 返回字符串
strings 获取标签下的所有非标签字符串，返回生成器。
stripped_strings 获取标签下的所有非标签字符串，并剔除空白字符，返回生成器。
get_text # 获取标签下的所有非标签字符串,返回字符串格式
contents、children都是返回某个标签下的直接子元素，包含字符串。 contents 返回一个列表，children 返回一个生成器

select 方法和find_all极其相似

以实际例子作说明：

1、定义一个html，并使用BeautifulSoup的lxml解析

from bs4 import BeautifulSoup

html = '''

<table>

<tr class='a1'>

    <td>职位名称</td>

    <td>职位类别</td>

    <td>时间</td>

</tr>

<tr class='a1'>

    <td><a id='test' class='test' target='_blank' href='https://www.baidu.com/'>职位一</a></td>

    <td>类别一</td>

    <td>时间1</td>

</tr>

<tr class='a2'>

    <td><a id='test' class='test' target='_blank' href='https://www.baidu.com/'>职位二</a></td>

    <td>类别二</td>

    <td>时间2</td>

</tr class='a3'>

<tr>

    <td><a id='test' class='test' target='_blank' href='https://www.baidu.com/'>职位3</a></td>

    <td>类别3</td>

    <td>时间3</td>

</tr>

</table>

<div>

这是一个div

<p>

<!-- 这是一个注释 -->

</p>

</div>

'''

soup = BeautifulSoup(html,'lxml') # 解析html

find_all

2、获取所有的tr标签

find 返回找到的第一个标签，find_all以list的形式返回找到的所有标签

trs = soup.find_all('tr') # 返回列表

n=1

for i in trs:

    print('第{}个tr标签：'.format(n))

    print(i)

    n+=1

3、获取第二个tr标签

limit 可指定返回的标签数量

trs = soup.find_all('tr',limit=2)[1]  # 从列表中获取第二个元素，limit 获取标签个数

print(trs)

4、获取class='a1'的tr标签

　a.方法一： class_

trs = soup.find_all('tr',class_='a1')

n=1

for i in trs:

    print('第{}个class=''a1''的tr标签：'.format(n))

    print(i)

    n+=1

　b.方法二：attrs 将标签属性放到一个字典中

trs = soup.find_all('tr',attrs={'class':'a1'})

n=1

for i in trs:

    print('第{}个class=''a1''的tr标签：'.format(n))

    print(i)

    n+=1

5、提取所有id='test'且class='test'的a标签

　方法一：class_

alist = soup.find_all('a',id='test',class_='test')

n=1

for i in alist:

    print('第{}个id=''test''且class=''test''的a标签：'.format(n))

    print(i)

    n+=1

　方法二：attrs

alist = soup.find_all('a',attrs={'id':'test','class':'test'})

n=1

for i in alist:

    print('第{}个id=''test''且class=''test''的a标签：'.format(n))

    print(i)

    n+=1

6、获取所有a标签的href属性

alist = soup.find_all('a')

#方法一：通过下标获取

for a in alist:

    href = a['href']

    print(href)

#方法二： 通过attrs获取

for a in alist:

    href = a.attrs['href']

    print(href)

7、获取所有的职位信息(所有文本信息)

string 获取标签下的非标签字符串(值), 返回字符串

注：第一个tr为标题信息，不获取。从第二个tr开始获取。

trs = soup.find_all('tr')[1:]

movies = []

for tr in trs:

    move = {}

    tds = tr.find_all('td')

    move['td1'] = tds[0].string  # string 取td的值

    move['td2'] = tds[1].string

    move['td3'] = tds[2].string

    movies.append(move)

print(movies)

8、获取所有非标记性字符

strings 获取标签下的所有非标签字符串，返回生成器。

trs = soup.find_all('tr')[1:]

for tr in trs:

    infos = list(tr.strings)  # 获取所有非标记性字符，包含换行、空格

    print(infos)

9、获取所有非空字符

stripped_strings 获取标签下的所有非标签字符串，并剔除空白字符，返回生成器。

trs = soup.find_all('tr')[1:]

for tr in trs:

    infos = list(tr.stripped_strings)  # 获取所有非空字符，不包含换行、空格

    print(infos)

# stripped_strings 获取所有职位信息

trs = soup.find_all('tr')[1:]

movies = []

for tr in trs:

    move = {}

    infos = list(tr.stripped_strings)

    move['职位'] = infos[0]

    move['类别'] = infos[1]

    move['时间'] = infos[2]

    movies.append(move)

print(movies)

10、get_text 获取所有职位信息

get_text 获取标签下的所有非标签字符串,返回字符串格式

trs = soup.find_all('tr')[1]

text = trs.get_text() # 返回字符串格式

print(text)

select

11、获取所有tr标签

trs = soup.select('tr')

for i in trs:

    print('tr标签：',i)

12、获取第二个tr标签

trs = soup.select('tr')[1]

print(trs)

13、获取所有class="al"的tr标签

# 方法一：

trs = soup.select('tr.a1')  # tr标签的class属性

for i in trs:

    print(i)

# 方法二：

trs = soup.select('tr[class="a1"]')  # tr标签的class属性

for i in trs:

    print(i)

14、提取所有a标签的href属性

# 方法一：

a = soup.select('a')

for i in a:

    print(i['href'])

# 方法二：

a = soup.select('a')

for i in a:

    print(i.attrs['href'])

15、获取所有的职位信息

trs = soup.select('tr')

for i in trs:

    print(list(i.stripped_strings))

初识python 之爬虫：BeautifulSoup 的 find、find_all、select 方法的更多相关文章

初识python 之爬虫：使用正则表达式爬取“糗事百科 - 文字版”网页数据
初识python 之爬虫:使用正则表达式爬取"古诗文"网页数据的兄弟篇. 详细代码如下: #!/user/bin env python # author:Simple-Sir ...
初识python 之爬虫：爬取双色球中奖号码信息
人生还是要有梦想的,毕竟还有python.比如,通过python来搞一搞彩票(双色球).注:此文仅用于python学习,结果仅作参考.用到知识点:1.爬取网页基础数据2.将数据写入excel文件3.将 ...
初识python 之爬虫：爬取中国天气网数据
用到模块: 获取网页并解析:import requests,html5lib from bs4 import BeautifulSoup 使用pyecharts的Bar可视化工具"绘制图表& ...
初识python 之爬虫：使用正则表达式爬取“古诗文”网页数据
通过requests.re(正则表达式) 爬取"古诗文"网页数据. 详细代码如下: #!/user/bin env python # author:Simple-Sir # tim ...
初识python 之爬虫：正则表达式
python中正则表达式功能由 re 模块提供: import re 两个主要函数: match 匹配第一个字符(从第一个字符开始匹配) search 匹配整个字符串一.匹配单个字符 1.匹配某个 ...
初识python 之爬虫：爬取豆瓣电影最热评论
主要用到lxml的etree解析网页代码,xpath获取HTML标签. 代码如下: 1 #!/user/bin env python 2 # author:Simple-Sir 3 # time:20 ...
初识python 之爬虫：爬取某电影网站信息
注:此代码仅用于个人爱好学习使用,不涉及任何商业行为! 话不多说,直接上代码: 1 #!/user/bin env python 2 # author:Simple-Sir 3 # time:201 ...
初识python 之爬虫：爬取某网站的壁纸图片
用到的主要知识点:requests.get 获取网页HTMLetree.HTML 使用lxml解析器解析网页xpath 使用xpath获取网页标签信息.图片地址request.urlretrieve ...
Python网络爬虫与信息提取
1.Requests库入门 Requests安装用管理员身份打开命令提示符: pip install requests 测试:打开IDLE: >>> import requests ...

随机推荐

Shell脚本实现自动修改IP地址
作为一名Linux SA,日常运维中很多地方都会用到脚本,而服务器的ip一般采用静态ip或者MAC绑定,当然后者比较操作起来相对繁琐,而前者我们可以设置主机名.ip信息.网关等配置.修改成特定的主机名 ...
【Linux】【Services】【Docker】网络
容器的网络模型: closed container: 仅有一个接口:loopback 不参与网络通信,仅适用于无须网络通信的应用场景,例如备份.程序调试等: --net none bridged co ...
Thymeleaf+layui+jquery复选框回显
一.Thymeleaf+layui+jquery复选框回显基于Thymeleaf模板下的layui+jquery复选框回显,主要是jquery.大致意思是:把数组转成JSON传到前台,再在前台转回数 ...
数据恢复binlog2sql
目录一.原理及其使用用途闪回原理简析 binlog 有三种可选的格式: 来实例演习下来实例演习下二.准备工作一.原理及其使用生产上误删数据.误改数据的现象也是时常发生的现象,作为运维这时候 ...
【.NET 与树莓派】WS28XX 灯带的颜色渐变动画
在上一篇水文中,老周演示了 WS28XX 的基本使用.在文末老周说了本篇介绍颜色渐变动画的简单实现. 在正式开始前,说一下题外话. 第一件事,最近树莓派的价格猛涨,相信有关注的朋友都知道了.所以,如果 ...
『与善仁』Appium基础 — 25、APP模拟手势高级操作
目录 1.手指轻敲操作 2.手指按下和抬起操作 3.等待操作 4.手指长按操作 5.手指移动操作 6.综合练习 APP模拟手势的动作都被封装在TouchAction类中,TouchAction是App ...
Spring 5| 轻量级的开源JavaEE框架
一.Spring框架的概述 1.Spring是轻量级的开源的JavaEE框架 2.Spring可以解决企业应用开发的复杂性 3.Spring有两个核心的部分:IOC(控制反转)和AOP(面向切面编程) ...
CF1141C Polycarp Restores Permutation 题解
Content 给定一个长度为 \(n-1\) 的序列 \(q\),问你是否能找到一个 \(1\sim n\) 的排列 \(p\),使得 \(\forall i\in[1,n)\),\(q_i=p_{ ...
java 常用类库：Object类和Objects类
1,Object类: Object类是所有的类,数组,枚举的父类,也就是说,JAVA中允许把任何的对象赋值给Object类(包括基础数据类型),当定义一个类的时候,没有使用extends关键字显示指定 ...
mysql添加上log_bin步骤如下
mysql添加上log_bin步骤如下

初识python 之 爬虫：BeautifulSoup 的 find、find_all、select 方法

find_all

select

初识python 之 爬虫：BeautifulSoup 的 find、find_all、select 方法的更多相关文章

随机推荐

热门专题

初识python 之爬虫：BeautifulSoup 的 find、find_all、select 方法

初识python 之爬虫：BeautifulSoup 的 find、find_all、select 方法的更多相关文章