python爬虫beautifulsoup4系列2【转载】

本篇转自博客：上海-悠悠

原文地址：http://www.cnblogs.com/yoyoketang/tag/beautifulsoup4/

前言

本篇详细介绍beautifulsoup4的功能，从最基础的开始讲起，让小伙伴们都能入门

一、读取HTML页面

1.先写一个简单的html页面，把以下内容copy出来，保存为html格式文件

...
2.为了学习方便，可以把此html文件和脚本放同一文件夹下

3.用python的open函数读取这个html,如下图能正确打印出来，说明读取成功了

二、解析器：html.parser

1.用BeautifulSoup的构造方法,就能得到一个文档的对象, 可以传入一段字符串或一个文件句柄

2.如果我们调用BeautifulSoup这个类的时候，不带"html.parser"参数，这时候会有个waring的，下图红色框框区域给出了建议。

3.html.parser这个是python库里面自带的解析器，无需安装。

4.prettify()这个方法是把文件解析成html格式，用html的标准格式输出（有缩进的）

三、对象的种类

1.Beautiful Soup将复杂HTML文档转换成一个复杂的树形结构,每个节点都是Python对象,所有对象可以归纳为4种:

Tag : 标签对象，如：yoyoketang，这就是一个标签

NavigableString ：字符对象，如：这里是我的微信公众号：yoyoketang

BeautifulSoup ：就是整个html对象

Comment ：注释对象，如：!-- for HTML5 --，它其实就是一个特殊NavigableString

2.弄清楚了这四个对象，后面所有的操作但是基于这四个（其实最后面一个comment可以忽略，几乎用不到）

四、Tag对象

1.html里面识别一个tag，其实一般像这种：

yoyoketang

yoyoketang

<head><title>yoyo ketang</title></head>

以上这些都是tag,很明显都是以<xx 开头</xx> 结尾这种，就是一个完整的tag

2.通过标签的名称，来获取tag对象

3.如果有多个相同的标签名称，返回的是第一个

五、Tag对象：name属性

1.tag的name属性，每一个tag都有name属性，用.name获取，如上面的三个name属性分别为p,b,head。也就是<xx开头的，这里的xx就是它的name属性

2.html是一个树状结构的，每个tag都有属性，整个html对象也有name属性，它的属性是：[document]

六、Tag对象：Attributes

1.tag.attrs可以打印出所有的属性，可以看出是个字典格式的

2.那么获取其中的某一个属性，就跟操作字典一样，如：tag["href"]

3.由于class属性一般可以为多个，中间空格隔开，所以class属性获取的是一个list类型：[u'sister']

4.tag.string，这里Tag对象变成NavigableString对象了，呵呵小伙伴们要懵逼了吧。其实打印出来就是一个字符串。

七、发福利

1.爬糗事百科首页的段子

# coding:utf-8
from bs4 import BeautifulSoup
import requests

r = requests.get("https://www.qiushibaike.com/")
qiubai = r.content
soup = BeautifulSoup(qiubai, "html.parser")
duanzi = soup.find_all(class_="content")
for i in duanzi:
    # tag的 .contents 属性可以将tag的子节点以列表的方式输出
    duan = i.span.contents[0] # 取第一个
    print duan

python爬虫beautifulsoup4系列2【转载】的更多相关文章

python爬虫beautifulsoup4系列1【转载】
本篇转自博客:上海-悠悠原文地址:http://www.cnblogs.com/yoyoketang/tag/beautifulsoup4/ 前言以博客园为例,爬取我的博客上首页的发布时间.标题. ...
python爬虫beautifulsoup4系列4-子节点【转载】
本篇转自博客:上海-悠悠原文地址:http://www.cnblogs.com/yoyoketang/tag/beautifulsoup4/ 前言很多时候我们无法直接定位到某个元素,我们可以先定位 ...
python爬虫beautifulsoup4系列2
前言本篇详细介绍beautifulsoup4的功能,从最基础的开始讲起,让小伙伴们都能入门一.读取HTML页面 1.先写一个简单的html页面,把以下内容copy出来,保存为html格式文件 &l ...
python爬虫beautifulsoup4系列1
前言以博客园为例,爬取我的博客上首页的发布时间.标题.摘要,本篇先小试牛刀,先了解下它的强大之处,后面讲beautifulsoup4的详细功能. 一.安装 1.打开cmd用pip在线安装beauti ...
python爬虫beautifulsoup4系列4-子节点
前言很多时候我们无法直接定位到某个元素,我们可以先定位它的父元素,通过父元素来找子元素就比较容易一.子节点 1.以博客园首页的摘要为例:<div class="c_b_p_desc ...
《Python爬虫学习系列教程》学习笔记
http://cuiqingcai.com/1052.html 大家好哈,我呢最近在学习Python爬虫,感觉非常有意思,真的让生活可以方便很多.学习过程中我把一些学习的笔记总结下来,还记录了一些自己 ...
[转]《Python爬虫学习系列教程》
<Python爬虫学习系列教程>学习笔记 http://cuiqingcai.com/1052.html 大家好哈,我呢最近在学习Python爬虫,感觉非常有意思,真的让生活可以方便很多. ...
Python爬虫beautifulsoup4常用的解析方法总结（新手必看）
今天小编就为大家分享一篇关于Python爬虫beautifulsoup4常用的解析方法总结,小编觉得内容挺不错的,现在分享给大家,具有很好的参考价值,需要的朋友一起跟随小编来看看吧摘要如何用beau ...
Python爬虫学习系列教程
最近想学一下Python爬虫与检索相关的知识,在网上看到这个教程,觉得挺不错的,分享给大家. 来源:http://cuiqingcai.com/1052.html 一.Python入门 1. Pyth ...

随机推荐

stm32--free modbus 1.5.0移植（作为从机）
添加文件获取原始free modbus library(官网) 将...\freemodbus-v1.5.0\demo\BARE中的所有文件复制到...\freemodbus-v1.5.0\modb ...
latex排版系统
proTeXt - MiKTeX-based distribution for Windows proTeXt aims to be an easy-to-install TeX distributi ...
网易云深度剖析Kubernetes优化与实践
欢迎访问网易云社区,了解更多网易技术产品运营经验. 10 月 15 日,聚焦 Kubernetes 中国行业应用与技术落地的首届中国 Kubernetes 用户大会(KEUC)在杭州成功举办.本次大会 ...
《Cracking the Coding Interview》——第17章：普通题——题目3
2014-04-28 22:18 题目:计算N的阶乘尾巴上有多少个零? 解法:计算5的个数即可,因为2 * 5 = 10,2的个数肯定比5多.计算5的个数可以在对数时间内搞定. 代码: // 17.3 ...
《Cracking the Coding Interview》——第13章：C和C++——题目7
2014-04-25 20:18 题目:给定一个Node结构体,其中包含数据成员和两个Node*指针指向其他两个Node结构(还不如直接说这是个图呢).给你一个Node指针作为参数,请做一份深拷贝作为 ...
Python3中文教程
搜索此文档来源自网络安装 PYTHON❝ Tempora mutantur nos et mutamur in illis. (时光流转,吾等亦随之而变.) ❞ — 古罗马谚语深入欢迎来到 Py ...
Pascal数据结构与算法
第一章数据结构与算法的引入 1.1 数据结构的基本概念一. 学习数据结构的意义程序设计 = 数据结构 + 算法目前,80%的待处理的数据具有“算法简单”(四则运算.检索.排序等),“对象复杂” ...
Linux认知之旅【01 与Linux第一次亲密接触】！
一.搜索LINUX,了解它的前世今生! linux很厉害,应用在很多方面,我知道有超算.IOT.树莓派. 而且好多开发人员都在用这个系统.linux作为服务器使用,常年不用重启,不宕机,很少受病毒影响 ...
NBA投篮
D 辅助插件:原生游戏制作难度系数:初级游戏教程网址:http://www.raywenderlich.com/20333/beginning-unity-3d-for-ios-part-1 1. ...
Nginx简单的配置详情
大致了解Nginx后,直接从配置文件入手: [shell] #定义Nginx运行的用户和用户组 user nginx; #nginx进程数,建议设置为等于CPU总核心数. worker_process ...

python爬虫beautifulsoup4系列2【转载】

python爬虫beautifulsoup4系列2【转载】的更多相关文章

随机推荐

热门专题