BeautifulSoup4----利用find_all和get方法来获取信息

中文文档
官方教学网页源码：

<html>

    <head>

        <title>Page title</title>

    </head>

    <body>

        <p id="firstpara" align="center">

        This is paragraph<b>one</b>.

        </p>

        <p id="secondpara" align="blah">

        This is paragraph<b>two</b>.

        </p>

     </body>

</html>

find方法的参数及意义

find(name=None, attrs={}, recursive=True, text=None, **kwargs)

1,按照tag(标签)搜索：

1 find(tagname)        # 直接搜索名为tagname的tag 如：find('head')

2 find(list)           # 搜索在list中的tag，如: find(['head', 'body'])

3 find(dict)           # 搜索在dict中的tag，如:find({'head':True, 'body':True})

4 find(re.compile('')) # 搜索符合正则的tag, 如:find(re.compile('^p')) 搜索以p开头的tag

5 find(lambda)         # 搜索函数返回结果为true的tag, 如:find(lambda name: if len(name) == 1) 搜索长度为1的tag

6 find(True)           # 搜索所有tag

　　2,按照attrs(属性)搜索:

1 find('id'='xxx')                                  # 寻找id属性为xxx的

2 find(attrs={'id':re.compile('xxx'), 'algin':'xxx'}) # 寻找id属性符合正则且algin属性为xxx的

3 find(attrs={'id':True, 'algin':None})               # 寻找有id属性但是没有algin属性的

利用BeautifulSoup4爬取豆瓣数据的ID

代码如下：

import requests

from bs4 import BeautifulSoup as bs

#以豆瓣‘编程’分类的一个连接URL为例子开始爬数据ID

url = 'https://book.douban.com/tag/编程?start=20&type=T'

res = requests.get(url)  #发送请求

#print(res.encoding)    #这个是用来查看网页编码的

#res.encoding = 'utf-8'   #跟上一个结合来用，如果编码有乱码，则可以通过这个定义编码来改变

html = res.text

#print(html)

IDs = []

soup  = bs(html,"html.parser")     #定义一个BeautifulSoup变量

items = soup.find_all('a',attrs={'class':'nbg'})

#print(items)

for i in items:

    idl = i.get('href')

    #print(idl)

    id = idl.split('/')[4]

    print(id)

    IDs.append(id)

print('这一页收集到书籍ID数：%d' % len(IDs))

第一部分是获取网页源代码的过程，使用requests模块
第二部分为使用BeautifulSoup来解析网页，得到需要的信息
- ```
soup  = bs(html,"html.parser")
```
  这句的意思是声明一个变量，用BeautifulSoup处理之后的原网页代码
- ```
items = soup.find_all('a',attrs={'class':'nbg'})
```
  这句的作用是查找a标签，当然，a标签会有很多，但是我们不需要所有，因此我们还需要判断一下这种a标签还有个属性是class='nbg'，我们只需要这种a标签。items得到的是一个list
- 属性都放着attrs这个字典中，当某个属性的值不是定值的时候，可以使用 '属性名':True 这种方式。
- ```
for i in items:

    idl = i.get('href')
```
  这句的意思是获取满足条件的每个a标签中属性‘href’的值
- ```
id = idl.split('/')[4]
```
  由于‘href’的属性是一个连接，但是我们只需要得到ID，所有可以将连接按照‘/’分解，提取ID
具体的爬虫例子可以参照：智联招聘爬虫
Beautifulsoup的select选择器方法可以参考爬虫例子：前程无忧爬虫

BeautifulSoup4----利用find_all和get方法来获取信息的更多相关文章

Jquery学习笔记：利用parent和parents方法获取父节点
通过选择器一般只能获取指定标识的节点,或者获取子节点. 有些场景下,往往需要根据当前节点找到满足条件的父节点.这个可以通过相应的方法来实现. 1.parent方法该方法可以获取元素的直接父节点. 我 ...
利用window.name+iframe跨域获取数据详解
详解前文提到用jsonp的方式来跨域获取数据,本文为大家介绍下如何利用window.name+iframe跨域获取数据. 首先我们要简单了解下window.name和iframe的相关知识.ifra ...
Java开发笔记（八十）利用反射技术操作私有方法
前面介绍了如何利用反射技术读写私有属性,不单是私有属性,就连私有方法也能通过反射技术来调用.为了演示反射的逆天功能,首先给Chicken鸡类增加下列几个私有方法,简单起见弄来了set***/get** ...
根据方法名获取方法Body Content
利用 MethodBody类的GetILAsByteArray方法可以获取到返回字节数组的MSIL的body.然后再去解析此字节数组, 可以得到MSIL,然后你再去解析MSIL,你就可以得到你想到so ...
如何在onCreate方法中获取视图的宽度和高度
你可以通过视图的getWidth()和getHeight()来获取视图的宽度和高度. 但是,可能会让你失望的是,如果你直接在onCreate方法内调用这两个函数,你会的到0. 为什么呢? 这是因为,当 ...
iframe 跨域问题解决方案利用window.name+iframe跨域获取数据详解
详解前文提到用jsonp的方式来跨域获取数据,本文为大家介绍下如何利用window.name+iframe跨域获取数据. 首先我们要简单了解下window.name和iframe的相关知识.ifra ...
java利用MultipartRequest的getFileName方法不能得到原文件名问题
想利用MultipartRequest的getFileName方法来一次获取多个上传的文件名字时,得到的不是文件的名字,而是 input 的name属性最后找到了答案,解决方法,参照http://s ...
C# 知识点笔记：IEnumerable<>的使用,利用反射动态调用方法
IEnumerable<T>的使用创建一个IEnumerable对象 List<string> fruits = new List<string> { " ...
JSF页面中使用js函数回调后台bean方法并获取返回值的方法
由于primefaces在国内使用的并不是太多,因此,国内对jsf做系统.详细的介绍的资料很少,即使有一些资料,也仅仅是对国外资料的简单翻译或者是仅仅讲表面现象(皮毛而已),它们的语句甚至还是错误的, ...

随机推荐

thinkphp getField()获取一列或一个数据
在开发中经常要获取一个数据的情况,thinkphp中有一个getField()方法可以解决这个问题. 获取一个数据 1 2 $user = M('demo'); $data = $user->g ...
《Android源码设计模式》--工厂方法模式
No1: 对于一个应用程序来说,其真正的入口是在ActivityThread类中,ActivityThread中含有我们熟悉的main方法.ActivityThread是一个final类,不能被继承. ...
移动端h5下ul实现横向滚动css代码
html代码: <ul id="category"> <li>品牌团</li> <li>美体个护</li> <li ...
oneDay
难受过迷茫过失望过耍脾气过开心过伤心过疼过走了这么久的路: 我只想说程序的道路上很难走: 本来准备都放弃了: 自己逼自己了很久想明白了: 不能什么时候都想着靠外力自己的不足就是自己 ...
为什么要使用String
最近在培训课期间指导初学者.任务之一就是要大家完成一个类,要求这个类对key为String类型的map执行dwarwle操作.其中一位学员完成的类中,有如下方法: void dwarwle(HashM ...
CSS3组件化之单线箭头
<div class="parent-box"> <div class="top-arrow"></div> <div ...
LCD
<LCD硬件体系结构> LCD控制器:位于ARM核内部,为LCD提供需要显示的数据,控制信息,控制时序 <LCD控制器结构> REGBANKK : 寄存器组,总共有17个寄存器 ...
AGC009D Uninity
一些无关紧要的事: 似乎很久没写题解了……象征性地更一篇.另外很多blog都设了私密,不是很敢公开,不过说不定哪天会公开的. link 题意: 最优树的点分治:使得点分最大层数最小.(听说是经典问题) ...
计算机二级软件VC++6.0下载地址
计算机二级软件VC++6.0介绍: 适合所有参加全国计算机等级考试的童鞋们……见图如下: 下载地址:(以下两者任选其一即可) (1).计算机二级软件VC++6.0(16.35MB) (2).计算机二级 ...
Google的Shell开发规范
官方:https://google.github.io/styleguide/shell.xml 中文: http://zh-google-styleguide.readthedocs.io/en/l ...

BeautifulSoup4----利用find_all和get方法来获取信息

中文文档

官方教学网页源码：

find方法的参数及意义

利用BeautifulSoup4爬取豆瓣数据的ID

具体的爬虫例子可以参照：智联招聘爬虫

Beautifulsoup的select选择器方法可以参考爬虫例子：前程无忧爬虫

BeautifulSoup4----利用find_all和get方法来获取信息的更多相关文章

随机推荐

热门专题