[Python]BeautifulSoup安装与使用

1.BeautifulSoup简介

BeautifulSoup4和 lxml 一样，Beautiful Soup 也是一个HTML/XML的解析器，主要的功能也是如何解析和提取 HTML/XML 数据。

BeautifulSoup支持Python标准库中的HTML解析器,还支持一些第三方的解析器，如果我们不安装它，则 Python 会使用 Python默认的解析器，lxml 解析器更加强大，速度更快，推荐使用lxml 解析器。

Beautiful Soup自动将输入文档转换为Unicode编码，输出文档转换为utf-8编码。你不需要考虑编码方式，除非文档没有指定一个编码方式，这时，Beautiful Soup就不能自动识别编码方式了。然后，你仅仅需要说明一下原始编码方式就可以了。

2.BeautifulSoup的安装

首先我们需要安装一个BeautifulSoup库。我安装的版本是python3。所以就可以直接在cmd下用pip3命令进行安装。

命令：

pip3 install beautifulsoup4

在安装好BeautifulSoup后，我们可以通过导入该库来判断是否安装成功。

命令：

>>> from bs4 import BeautifulSoup

回车后不报错，这说明我们已经将其安装成功。

3.BeautifulSoup常用功能

# beautiful soup 网页中提取信息的python库

#   BeautifulSoup 对象表示的是一个文档的全部内容

#   prettify() 按照标准的缩进格式的结构输出

#   get_text() 会将HTML文档中的所有标签清除,返回一个只包含文字的字符串

from bs4 import BeautifulSoup

text='''

<?xml version="1.0" encoding="ISO-8859-1"?>

<bookstore>

<book>

  <title lang="eng">Harry Potter</title>

  <price>29.99</price>

</book>

<book>

  <title lang="eng">Learning XML</title>

  <price>39.95</price>

</book>

</bookstore>

'''

# create 对象

bf=BeautifulSoup(text)

# 按照标准缩进格式输出

print(bf.prettify())

# 会将HTML文档中的所有标签清除,返回一个只包含文字的字符串

print(bf.get_text())

# Tag对象

# 标签  表示HTML中的一个个标签

# name

# attrs

tag=bf.title # 获取title标签

print(tag)

print(type(tag))  # tag类型

print(tag.name) # 标签名称

print(tag.attrs) #标签属性

print(tag.attrs["lang"]) #单独获取某个属性 方法1

print(bf.title["lang"]) #单独获取某个属性 方法2

# NavigableString  tag.string

# 表示标签中的文字

print(tag.string)

print(type(tag.string)) # 查看数据类型

# Comment 注释部分

# 一个特殊类型的NavigableString对象

# 输出的内容不包括注释符号

string='''

<p><!-- 这是注释！ --></p>

'''

sp=BeautifulSoup(string)

print(sp)

print(sp.p.string) # 去获取标签中是文字

# 两个常用函数 

# find_all() 搜索当前tag的所有tag子节点,并判断是否符合给定的条件

# 返回结果是一个列,可以包含多个元素

print(soup.find_all('title'),end="\n-------\n")

#find() 直接返回第一个元素

print(soup.find("title"))

print(soup.find_all("title",lang="eng")) # 查找title标签 属性lang=eng

print(soup.find_all("title",{"lang":"eng"})) # 结果同上

print(soup.find_all(["title","price"])) #获取多个标签

print(soup.find_all("title",lang="eng")[0].get_text()) # 获取文本

# 三大常见节点

#   子节点  一个Tag可能包含多个字符串或其他的tag，这些都是这个tag的子节点

#   父节点  配个tag或字符串都有父节点：被包含在某个tag中

#   兄弟节点 平级的节点

end="\n-------\n"

print(soup.book,end) # 获取book节点信息

print(soup.book.contents,end) # 获取book下的所有子节点

print(soup.book.contents[1],end) # 获取book下的所有子节点中的第一个节点

print(soup.book.children,end) # children 生成迭代器

for child in soup.book.children:

    print("===",child)

print(soup.title.parent,end)

print(soup.book.parent,end)

for parent in soup.title.parents: #注意parent和parents区别

    print("===",parent.name)

print(soup.title.next_sibling,end) # 获取该节点的下一个兄弟节点

print(soup.title.previous_sibling,end) # 获取该节点的上一个兄弟节点

print(soup.title.next_siblings,end) # 获取该节点的全部兄弟节点

for i in soup.title.next_siblings:

    print("===",i)

[Python]BeautifulSoup安装与使用的更多相关文章

Python - BeautifulSoup 安装
BeautifulSoup 3.x 1. 下载 BeautifulSoup. [huey@huey-K42JE python]$ wget http://www.crummy.com/software ...
python下载安装BeautifulSoup库
python下载安装BeautifulSoup库 1.下载https://www.crummy.com/software/BeautifulSoup/bs4/download/4.5/ 2.解压到解压 ...
【Python实例二】之前期准备：Windows下的BeautifulSoup安装
前言一直久闻Python的爬虫很高效,而且操作便捷,因此决定开始练习爬虫的相关内容. 首先尝试的是Python的爬虫利器之一:BeautifulSoup.(这名字听起来就有种想要去探究的兴趣.... ...
python 库安装方法及常用库
python 库安装方法及常用库 python库安装方法: 方法一:setpu.py 1.下载库压缩包,解压,记录下路径:*:/**/……/ 2.运行cmd,切换到*:/**/……/目录下 3.运行s ...
Python的安装和详细配置
Python是一种面向对象.解释型计算机程序设计语言.被认为是比较好的胶水语言.至于其他的,你可以去百度一下.本文仅介绍python的安装和配置,供刚入门的朋友快速搭建自己的学习和开发环境.本人欢迎大 ...
python requests 安装
在 windows 系统下,只需要输入命令 pip install requests ,即可安装. 在 linux 系统下,只需要输入命令 sudo pip install requests ,即可 ...
Python 的安装与配置（Windows）
Python2.7安装配置 python的官网地址:https://www.python.org/ 我这里下载的是python2.7.12版本的下载后点击安装文件,直接点击下一步知道finally完 ...
初学python之安装Jupyter notebook
一开始安装python的时候,安装的是最新版的python3.6的最新版.而且怕出问题,选择的都是默认安装路径.以为这样总不会出什么问题.一开始确实这样,安装modgodb等一切顺利.然而在安装jup ...
转: python如何安装pip和easy_installer工具
原文地址: http://blog.chinaunix.net/uid-12014716-id-3859827.html 1.在以下地址下载最新的PIP安装文件:http://pypi.python. ...

随机推荐

第三篇 SpringBoot整合log4j2详解
源代码:https://pan.baidu.com/s/1d1Lwv1gIvVNltIKVWeEseA 提取码:wff0 SpringBoot整合Log4j2步骤: 1.删除spring-boot-s ...
kali帮助
kali help Attention 这是我N久前学习kali时自己打的东西,不保证没有纰漏啊…… 网址 kali:https://www.herojd.com/forum.php?mod=view ...
JAVA架构师眼中的高并发架构，分布式架构应用服务器集群
前言高并发经常会发生在有大活跃用户量,用户高聚集的业务场景中,如:秒杀活动,定时领取红包等. 为了让业务可以流畅的运行并且给用户一个好的交互体验,我们需要根据业务场景预估达到的并发量等因素,来设计适 ...
c# 读写SerialPort
SerialDataReceivedEventHandler无反映不要忘记这2属性赋值. serialPort1.DtrEnable = true; serialPort1.RtsEnable = ...
Html介绍,认识head标签
<head></head>标签位于html文档的头部,主要是用来描述文档的各种属性和信息,包括文档的标题等,当然文档头部包含的数据都不会真正作为内容展示给访客的. 如下的一些标 ...
Swift -POP( 面向协议编程)与OOP(面向对象编程)
面向协议编程(Protocol Oriented Programming,简称POP),是Swift的一种编程范式,Apple于2015年WWDC提出的,如果大家看Swift的标准库,就会看到大量PO ...
新年上新！极光认证 Web SDK 首版上线
新年伊始,极光开发者服务也抢先为各位开发者朋友带来了"新年大礼包",几款明星产品都悉数有不少更新: 极光认证 Web SDK 版本上线相信不少小伙伴早已熟知极光认证这款产品,3秒 ...
面试再问ThreadLocal，别说你不会！
ThreadLocal是什么以前面试的时候问到ThreadLocal总是一脸懵逼,只知道有这个哥们,不了解他是用来做什么的,更不清楚他的原理了.表面上看他是和多线程,线程同步有关的一个工具类,但其 ...
ihandy2019笔记编程真题
using System; using System.Collections.Generic; using System.Linq; using System.Text; using System.T ...
JavaScript自学笔记（2）---function a(){} 和 var a = function(){}的区别（javascript)
function a(){} 和 var a = function(){}的区别: 学习做浮窗,看到别人的代码里有: window.onresize = function(){ chroX = doc ...

[Python]BeautifulSoup安装与使用

[Python]BeautifulSoup安装与使用的更多相关文章

随机推荐

热门专题