Python Beautiful Soup学习之HTML标签补全功能

Beautiful Soup是一个非常流行的Python模块。该模块可以解析网页，并提供定位内容的便捷接口。

使用下面两个命令安装：

pip install beautifulsoup4 或者 sudo apt-get install Python-bs4

如果想安装最新的版本，请直接下载安装包来手动安装，也是十分方便的方法。

在这里我安装的是 Beautiful Soup 4.5.1

下载完成之后把解压包放到site-package目录下，cd到解压包中，运行下面的命令即可完成安装：

sudo python setup.py install

然后需要安装lxml:

sudo apt-get install Python-lxml

使用Beautiful Soup的第一步是将已下载的HTML内容解析为soup文档。

由于大多数网页都不具备良好的HTML格式，因此Beautiful Soup需要对其实际格式进行确定。

例如，在下面这个简单网页的列表中，存在属性值两侧引号缺失和标签未闭合的问题。

markup ="fdsf"

我们可以看到P标签未闭合。下面让我们看一下Beautiful Soup是如何处理的。

#!/usr/bin/env python
# -*- coding:utf-8 -*-

from bs4 import BeautifulSoup

markup ="It's wonderful"
tags = []
#soup = BeautifulSoup(markup,'html.parser')

#环境问题，可能报错，暂时还没搞懂html.parser和lxml的区别，后续跟进，如果报错，就用下一行的代码
soup = BeautifulSoup(markup,'lxml')
fixed_html = soup.prettify()
print fixed_html

结果如下：

我们可以看到不仅标签补全完整，而且加入了<html>和<body>标签，进行格式化的输出。

下面我们就可以用findAll()方法查找我们想要的标签或者内容了。

我们先打印看一下findAll()得到的标签都是什么？

tags = []

tag = soup.findAll()
for sub in tag:
tags.append(sub.name)
print tags

执行结果如下：

我们得到了我们所需要的标签，然后我们在findAll()中加入想查找的标签。

例如：

sub = soup.findAll('p')

得到结果：

后续将会把该内容应用到爬虫中，对爬虫得到的网页进行解析。

Python Beautiful Soup学习之HTML标签补全功能的更多相关文章

推荐一些python Beautiful Soup学习网址
前言:这几天忙着写分析报告,实在没精力去研究django,虽然抽时间去看了几遍中文文档,还是等实际实践后写几篇操作文章吧! 正文:以下是本人前段时间学习bs4库找的一些网址,在学习的可以参考下,有点多 ...
python学习笔记--导入tab键自动补全功能的配置
今天开始学习Python,必须配置tab键补全功能 1.首先我们需要查看python的安装路径 [root@abc ~]# python Python 2.6.6 (r266:84292, Jan 2 ...
第三百六十八节，Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)用Django实现搜索的自动补全功能
第三百六十八节,Python分布式爬虫打造搜索引擎Scrapy精讲—用Django实现搜索的自动补全功能 elasticsearch(搜索引擎)提供了自动补全接口官方说明:https://www.e ...
Python中tab键自动补全功能的配置
新手学习Python的时候,如何没有tab键补全功能,我感觉那将是一个噩梦,对于我们这种菜鸟来说,刚接触python,对一切都不了解,还好有前辈们的指导,学习一下,并记录下来,还没有学习这个功能小伙伴 ...
四十七 Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)用Django实现搜索的自动补全功能
elasticsearch(搜索引擎)提供了自动补全接口官方说明:https://www.elastic.co/guide/en/elasticsearch/reference/current/se ...
php实现网页HTML标签补全方法
如果你的网页内容的html标签显示不全,有些表格标签不完整而导致页面混乱,或者把你的内容之外的局部html页面给包含进去了,我们可以写个函数方法来补全html标签以及过滤掉无用的html标签. php ...
网页内容的html标签补全和过滤的两种方法
网页内容的html标签补全和过滤的两种方法: 假设你的网页内容的html标签显示不全,有些表格标签不完整而导致页面混乱,或者把你的内容之外的局部html页面给包括进去了,我们能够写个函数方法来补全ht ...
python添加tab键自动补全功能
默认python是没有tab键补全功能的: >>> import tab Traceback (most recent call last): File "<stdi ...
vim基础学习之自动补全功能
本章我们学习自动补全功能1.自动补全优先从当前的编辑区获得补全列表例如:我们写下如下内容 aaaaa aabbb aaab 当我们再次输入aa,然后我们按下Tab的时候,会弹出一个包含 aaaaa a ...

随机推荐

Caché数据库学习笔记（5）
目录 Cache数据库方法的RESTful封装 ================================================================ 因为对web serv ...
Anaconda died after receiving signal 7
安装RHEL6-64时出现如下提示 Anaconda died after receiving signal 7 1 Anaconda是啥是RedHat.CentOS.Fedora等Linux的安装 ...
instanceof 与isAssignableFrom
instanceof 针对实例 isAssignableFrom针对class对象 isAssignableFrom 是用来判断一个类Class1和另一个类Class2是否相同或是另一个类的超类或 ...
android studio gradle结构项目引入本地代码
1.首先需要用eclipse打开目标项目,file export,选择gradle file. 2.拷贝文件到as项目的根目录[可选] 3.找到as项目的根目录下 .idea目录,下面有个module ...
zend create project prepare
1.php ini 安装pear 设置include_path 2.apache AllowOverride LoadModule rerwite去掉注释 <VirtualHost *:> ...
JAVA RMI 实例
下面我将介绍一个完整的实例,让初学者能快速体验RMI的功用. 分为以下四个步骤 1. 创建远程接口及声明远程方法(HelloInterface.java)2. 实现远程接口及远程方法(继承Unicas ...
cocoapods Analyzing dependencies 问题的解决方案
pod install --verbose --no-repo-update pod update --verbose --no-repo-update 修改就ok了
Tableau10.0学习随记-分组问题
1.根据官网的练习视频,分组时可多选列,之后使用回形针按钮创建分组,并重新命名即可,截图如下: 2.但在Tableau10中打开练习工作簿练习时,并没有直接显示分组后结果,仅仅是创建了分组的纬度,结果 ...
phpMyAdmin - 错误您应升级到 MySQL 5.5.0 或更高版本,解决办法。。。
折腾自己的个人网站,装了个数据库管理工具,遇到您应升级到 MySQL 5.5.0 或更高版本... 采用降级phpmyadmin版本的方法解决了: 查找phpmyadmin/libraries/com ...
CALayer 2 详解 -----转自李明杰
CALayer2-创建新的层本文目录一.添加一个简单的图层二.添加一个显示图片的图层三.为什么CALayer中使用CGColorRef和CGImageRef这2种数据类型,而不用UICol ...

Python Beautiful Soup学习之HTML标签补全功能

Python Beautiful Soup学习之HTML标签补全功能的更多相关文章

随机推荐

热门专题