# beautifulsoup4学习
# 是一个python模块 用于接受一个HTML 或 XML 字符串,然后将其进行格式化,之后便可以使用模块提供的方法进行快速查找指定元素,
# 从而是的在HTML 或xml中差汇总指定元素变得简单 # 安装方式:
# pip beautifulsoup4 # 引入方式:
from bs4 import BeautifulSoup #实例化,指定文本类型
# soup = BeautifulSoup("HTML 文本",features="lxml") # 基本使用
#查找单个标签
# f1 = soup.find("标签属性/标签名") #查找一类标签
# f2 = soup.find_all("标签属性/标签名") #jquery方式查找 id='name'
# f3 = soup.select("#name") # 属性参数:
# # .find / .find_all ()
# .find/find_all(下面参数)
# # # 基本查找
# # name='属性',
# # attrs={'class':'属性'},
# # recursive = True/False, #是否递归查找
# # text='文本内容',
#
# # 高级查找
# name/id/class_/href/text =['需要查找的值']
#
# # 正则表达式
# import re
# res = re.compile("div")
# f1.find_all(name/id/class_/href/text = res)
#
# # 函数方式
# def abc(self)
# return self.has_attr('class') and self.has_attr("id")
# f1.find_all(name = abc()) # .get() 属性 获取标签的属性值 # .get_text 属性 获取当前标签的文本 # .has_attr 属性 检查标签是或否具有该属性 # .name属性: 获取标签的标签名子
# f1.name # .atters 获取属性
# .atters['属性'] = 新属性值 # .children 获取标签的子标签 # .descendants 获取当前标签的所有后代标签 # .clear 清空当前标签的所有子标签 # .decompose 删除当前所有标签 # .extract 删除当前所有标签,并返回值(所删除的标签) # .encode 将当前内容转换为字节数据,包含当前标签
# .encode_contents 将当前内容转换为字节数据,不包含当前标签 # .decode 将当前内容转换为字符数据,包含当前标签
# .decode_contents 将当前内容转换为字节数据,不包含当前标签

python - beautifulsoup4模块的更多相关文章

  1. 使用pip安装BeautifulSoup4模块

    1.测试是否安装了BeautifulSoup4模块 import bs4 print bs4 执行报错说明没有安装该模块 Traceback (most recent call last): File ...

  2. python 相关模块安装 国内镜像地址

    python 相关模块安装 国内镜像地址 pipy国内镜像目前有: http://pypi.douban.com/  豆瓣 http://pypi.hustunique.com/  华中理工大学 ht ...

  3. 为Qemu aarch32添加BeautifulSoup4模块

    环境 Qemu:2.8.0 开发板:vexpress-ca9   概述 上一篇博文已经可以让我们的开发板可以成功的ping通百度了,据说Python的网络功能也很强大,而Beautiful Soup是 ...

  4. python---requests和beautifulsoup4模块的使用

    Requests:是使用 Apache2 Licensed 许可证的 基于Python开发的HTTP 库,其在Python内置模块的基础上进行了高度的封装,从而使得Pythoner进行网络请求时,变得 ...

  5. Python标准模块--threading

    1 模块简介 threading模块在Python1.5.2中首次引入,是低级thread模块的一个增强版.threading模块让线程使用起来更加容易,允许程序同一时间运行多个操作. 不过请注意,P ...

  6. Python的模块引用和查找路径

    模块间相互独立相互引用是任何一种编程语言的基础能力.对于“模块”这个词在各种编程语言中或许是不同的,但我们可以简单认为一个程序文件是一个模块,文件里包含了类或者方法的定义.对于编译型的语言,比如C#中 ...

  7. Python Logging模块的简单使用

    前言 日志是非常重要的,最近有接触到这个,所以系统的看一下Python这个模块的用法.本文即为Logging模块的用法简介,主要参考文章为Python官方文档,链接见参考列表. 另外,Python的H ...

  8. Python标准模块--logging

    1 logging模块简介 logging模块是Python内置的标准模块,主要用于输出运行日志,可以设置输出日志的等级.日志保存路径.日志文件回滚等:相比print,具备如下优点: 可以通过设置不同 ...

  9. python基础-模块

    一.模块介绍                                                                                              ...

随机推荐

  1. Jenkins Pipelines Summary

    示例1: pipeline{ agent {label "xxx"} // label is a special machine registered in Jenkins env ...

  2. selinux 的使用

    SELinux 的启动.关闭与查看 1,并非所有的 Linux distributions 都支持 SELinux 的 目前 SELinux 支持三种模式,分别如下: •enforcing:强制模式, ...

  3. 22. Generate Parentheses(ML)

    22. Generate Parentheses . Generate Parentheses Given n pairs of parentheses, write a function to ge ...

  4. MySQL会发生死锁吗?

    SHOW ENGINE INNODB STATUS;来查看死锁日志: SHOW PROCESSLIST;查看进程 MySQL的InnoDB引擎事务有4种隔离级别,主要是为了保证数据的一致性. Inno ...

  5. 4.django学习模板

    ##引用模板 步骤: 在应用目录下创建templates目录,在目录下创建html文件 在views.py返回render(渲染) 1.requests请求本身,2.模板文件,3.后台传递到前端的数据 ...

  6. qml: QtChart横纵轴label设置;

    在qml中,使用ChartView作为图表展示区域, 但是并没有给定接口用来设置xlabel,ylabel. 没得办法,只能采用笨方案: (我的方法如下) import QtQuick 2.0 imp ...

  7. System.Collections里的一些接口

    System.Collections 名称空间中的几个接口提供了基本的组合功能: IEnumerable 可以迭代集合中的项. ICollection(继承于IEnumerable)可以获取集合中 ...

  8. linux备份用户权限

    1:切换root用户,进入home目录,执行以下命令: [root@localhost home]# ll /home/wangfajun 2: home目录下执行以下命令进行wangfajun用户的 ...

  9. Nlog日志组件简介

    NLog简介 NLog是一个简单灵活的.NET日志记录类库,NLog的API非常类似于log4net,配置方式非常简单.支持多种形式输出日志:文本文件.系统日志.数据库.控制台.邮箱等 1.NLog简 ...

  10. 免费开源.net的pdf操作控件PdfiumViewer

    最终我找到了pdffiumViewer.开源免费的.net组件. 亲测,可以按第一个下载地址,改写开发.如果对源码感兴趣,可以上GitHub网站 效果图:  1.源代码下载地址: https://do ...