BeautifulSoup网页解析库

from bs4 import BeautifulSoup

0.BeautifulSoup网页解析库包含的几个解析器

Python标准库【主要,系统自带;】

使用方法： BeautifulSoup(markup,"html.parser")【注：markup是html文档】

Python的内置标准库

案例：



from bs4 import BeautifulSoup

soup = BeautifulSoup.(html,'html.parser')

print(soup.title.string)

lxmlHTML解析器

BeautifulSoup(markup,'lxml)

速度快、需要安装C语言库
lxml XML解析器

使用方法：BeautifulSoup(markup,"xml")

速度快，唯一支持XML的解析器、需要安装C语言库
html5lib

BeautifulSoup(markup,"html5lib")

容错性好，以浏览器的形式解析文档，生成html5格式的文档，但是速度慢

1.BeautifulSoup基本使用



#!/usr/bin/env python

# -*- coding:utf-8 -*- 

html="""

    <html>

        <head>

            <title>The Domouse's story</title>

        </head>

        <body>

            <p class="title" name="Domouse"><b>The Domouse's story</b></p>

            <p class="story">Once upon a time there were three little sisters;and their names were</p>

            <a href="http://www.baidu.com">百度</a>

            <p class="story">...</p>

        </body>

    </html>

    """

from bs4 import BeautifulSoup

soup = BeautifulSoup(html,'lxml')

#获取标签正文内容

print("标签内正文内容：" + soup.title.name)

#获取属性内容

print("属性内容" + soup.p.attrs['name'])

#获取内容

print("获取内容" + soup.p.string)

#获取嵌套内容（多个筛选条件）

print("获取嵌套内容" + soup.head.title.string)

#子节点 和 孙节点【重要，，当目标标签没有id 或 class时候必须用这个】

print("子节点" + soup.p.contents)   #全部子节点，返回的是列表形式

print("子节点" + soup.p.contents[2])   #第三个一级子节点，不管是什么标签

#1. 子节点#子节点【迭代器，只能用循环形式拿到数据】

soup = BeautifulSoup(html,"lxml")

print(soup.p.children)

for i,child in enumerate(soup.p.children):

    print(i,child)

#2.子孙节点

soup = BeautifulSoup(html,"lxml")

print(soup.p.descendants)

for i,child in enumerate(soup.p.descendants):

    print(i,child)

#父节点 和 祖先借点

print(list(enumerate("父节点：" + soup.a.parent))) #父节点

print(list(enumerate("祖父节点：" + soup.a.parent))) #祖父点

#获取兄弟节点

print("后面的兄弟节点" + list(enumerate(soup.a.next_siblings)))    #后面的兄弟节点

print("前面的兄弟节点" + list(enumerate(soup.a.previous_slblings)))    #前面的兄弟节点

Python_爬虫_BeautifulSoup网页解析库的更多相关文章

【Python爬虫】BeautifulSoup网页解析库
BeautifulSoup 网页解析库阅读目录初识Beautiful Soup Beautiful Soup库的4种解析器 Beautiful Soup类的基本元素基本使用标签选择器节点操作 ...
网页解析库-Xpath语法
网页解析库简介除了正则表达式外,还有其他方便快捷的页面解析工具如:lxml (xpath语法) bs4 pyquery等 Xpath 全称XML Path Language, 即XML路径语言, ...
Python网页解析库：用requests-html爬取网页
Python网页解析库:用requests-html爬取网页 1. 开始 Python 中可以进行网页解析的库有很多,常见的有 BeautifulSoup 和 lxml 等.在网上玩爬虫的文章通常都是 ...
第四节：Web爬虫之pyquery解析库
PyQuery库也是一个非常强大又灵活的网页解析库,如果你有前端开发经验的,都应该接触过jQuery,那么PyQuery就是你非常绝佳的选择,PyQuery 是 Python 仿照 jQuery 的严 ...
Python的网页解析库-PyQuery
PyQuery库也是一个非常强大又灵活的网页解析库,如果你有前端开发经验的,都应该接触过jQuery,那么PyQuery就是你非常绝佳的选择,PyQuery 是 Python 仿照 jQuery 的严 ...
Python3编写网络爬虫06-基本解析库Beautiful Soup的使用
二.Beautiful Soup 简介就是python的一个HTML或XML的解析库可以用它来很方便的从网页中提取数据 0.1 提供一些简单的 python式的函数来处理导航,搜索,修改分析树等功 ...
Python3编写网络爬虫07-基本解析库pyquery的使用
三.pyquery 简介:同样是一个强大的网页解析工具它提供了和jQuery类似的语法来解析HTML文档,支持CSS选择器,使用非常方便安装: pip install pyquery 验证: im ...
【Python爬虫】PyQuery解析库
PyQuery解析库阅读目录初始化基本CSS选择器查找元素遍历获取信息 DOM操作伪类选择器 PyQuery 是 Python 仿照 jQuery 的严格实现.语法与 jQuery 几乎 ...
第二节：web爬虫之lxml解析库
lxml是python的一个解析库,支持HTML和XML的解析,支持XPath解析方式,而且解析效率非常高.

随机推荐

GA001-181-21
Composite State with History The Composite State with History Pattern describes an entity (e.g. Cl ...
swoole 客户端和服务端不断通信
server.php <?php class Chat { const HOST = '0.0.0.0';//ip地址 0.0.0.0代表接受所有ip的访问 const PART = 9501; ...
python爬取知乎评论
点击评论,出现异步加载的请求 import json import requests from lxml import etree from time import sleep url = " ...
subprocess中命令为参数序列和字符串的区别
参数args 参数args可以是一个参数序列,也可以是一个单独的字符串.参数序列通常是首选的,因为它允许模块处理参数的转义和引号(例如,允许文件名中有空格). 如果传递参数序列,默认情况下,程序执行序 ...
vscode自定义插件安装位置
vscode的插件默认安装位置在: C:\Users\用户名\.vscode\extensions 如果不想将插件安装在C盘,可以自定义一个目标位置存储,使用如下: 右键快捷方式,在原本的目标后加入- ...
GDB常用调试命令（一）
GDB是UNIX及UNIX-like下的调试工具,通常gdb使用前置条件:编译时加入debug信息,这里指的是C++. gcc/g++调试选项 gcc/g++是在编译时加入-g,-g分4个等级: ...
SpringCloud Alibaba开篇：SpringCloud这么火，为何还要学习SpringCloud Alibaba？
写在前面大家都知道,SpringCloud Alibaba是在SpringCloud基础上开发并开源的一套微服务架构体系.那么,肯定会有小伙伴要问:在微服务领域,SpringCloud已经很火了,为 ...
单片机串口通信电平不匹配的解决电路，5V 3.3V串口通讯
很早的时候调试串口通讯遇到单片机和模块电压不匹配,信号无法传输,所以整理后来遇到的转换电路.1.最简单的用转换电平IC,可以去淘宝上搜索,有四路的有两路的,比如这个双向电平转换模块 2.根据接触的开发 ...
操作安装docker
在本地建造起vue-cli服务参考项目:https : //gitee.com/QiHanXiBei/myvue 在本地建造起一个django项目架构,通过/ hello能够打印出helloworl ...
c语言创建dll以及使用
0x01. declspec(dllexport)创建导出dll 笔者这边使用vs 2015,但是性质都一样的新建项目 -> Win32控制台应用程序 -> dll 这时候就创建了一个项 ...

Python_爬虫_BeautifulSoup网页解析库

BeautifulSoup网页解析库

0.BeautifulSoup网页解析库包含 的 几个解析器

1.BeautifulSoup基本使用

Python_爬虫_BeautifulSoup网页解析库的更多相关文章

随机推荐

热门专题

0.BeautifulSoup网页解析库包含的几个解析器