引子：

使用python爬虫对爬取网页进行解析的时候，如果使用正则表达式，有很多局限，比如标签中出现换行，或者标签的格式不规范，都有可能出现取不到数据，BeautifulSoup作为一个专门处理html格式的python第三方库，在格式处理上要明显优与正则表达式，而且使用简便。

安装：

下载beautifulsoup4-4.5.0,打开cmd，进入beautifulsoup文件目录，执行python setup.py install 进行安装

打开python命令行，执行from bs4 import BeautifulSoup 成功，则安装成功

使用：

获取指定标签及内容

soup=BeautifulSoup(text,"html.parser") #text为html文本，"html.parser"指按html格式进行解析

li= soup.find_all(name="li",attrs={"class":"rlbh"}) #查找所有li标签，class类型为rlbh

find只返回第一个标签，find_all返回所有标签，findAll是beautifulsoup3 的方法，在bs4中也可以用，find_all是bs4中的方法。

find_all返回结果为list类型，如果需要在返回结果中继续匹配可以这样：

li= soup.find_all(name="li",attrs={"class":"rlbh"})
for i in li:
　　#get count
　　lbdj=i.find_all(name="span",attrs={"class":"lbdj"}) #匹配li结果中的所有span标签，且class类型为lbdj

获取链接

a=span[0].find_all(name="a",attrs={"target":"_blank"}) #获取a标签
href=a[0].get('href') #获取a标签中href属性的内容
也可以直接a[0]['href'] 获取

获取内容

title=a[0].getText() #获取a标签中的文本

如：<a href="http:127.0.0.1">localhost</a>获取到的就是localhost

html解析のBeautifulSoup的更多相关文章

【Python】 html解析BeautifulSoup
BeautifulSoup bs是个html解析模块,常用来做爬虫? ■ 安装 BeautifulSoup可以通过pip来安装,用pip install beautifulsoup4 即可.但是仅仅这 ...
python爬虫之html解析Beautifulsoup和Xpath
Beautiifulsoup Beautiful Soup 是一个HTML/XML的解析器,主要的功能也是如何解析和提取 HTML/XML 数据.BeautifulSoup 用来解析 HTML 比较简 ...
网页解析--BeautifulSoup练习
# coding = utf-8 # BeautifulSoup 主要功能是解析提取HTML数据 # re lxml bs4 # pip install Beautifulsoup4 # from b ...
python爬虫解析页面数据的三种方式
re模块 re.S表示匹配单行 re.M表示匹配多行使用re模块提取图片url,下载所有糗事百科中的图片普通版 import requests import re import os if not ...
python(4): regular expression正则表达式/re库/爬虫基础
python 获取网络数据也很方便抓取 requests 第三方库适合做中小型网络爬虫的开发, 大型的爬虫需要用到 scrapy 框架解析 BeautifulSoup 库, re 模块 (一) r ...
（数据科学学习手札32）Python中re模块的详细介绍
一.简介关于正则表达式,我在前一篇(数据科学学习手札31)中已经做了详细介绍,本篇将对Python中自带模块re的常用功能进行总结: re作为Python中专为正则表达式相关功能做出支持的模块,提供 ...
(Python爬虫01)-本想给随笔加个序号才发现这么不方便
本想给随机加个序号,才发现还得去返回看看文章的序号.好在cnblog能断点自动保存. 作为一个小程序员,点赞的同时还在想,谁知道咋实现这种实时保存呢?有知道的给个参考文档呗.太感激了! 重点在这里有 ...
记录python爬取猫眼票房排行榜(带stonefont字体网页),保存到text文件,csv文件和MongoDB数据库中
猫眼票房排行榜页面显示如下: 注意右边的票房数据显示,爬下来的数据是这样显示的: 网页源代码中是这样显示的: 这是因为网页中使用了某种字体的缘故,分析源代码可知: 亲测可行: 代码中获取的是国内票房榜 ...
SpiderMan成长记(爬虫之路)
第一章爬虫基础 1.1 爬虫基本原理 1.2 请求库 -- urllib库的使用 1.3 请求库 -- requests库的使用 1.4 数据解析 -- 正则基础 1.5 数据解析 -- lxml与 ...

随机推荐

.Net中C# Dictionary 用法
Dictionary提供快速的基于键值的元素查找. 结构是:Dictionary <[key] , [value] >,当你有很多元素的时候可以用它. 它包含在System.Collect ...
quartus 9.0 对话框显示不完整
今天在quartus9.0新建SOPC build时,发现在添加PLL时对话框太大,笔记本分辨率差,导致结束和next不能选择: 解决: 如果电脑分辨率可以调整为合适的,就去调整: 现在介绍分辨率不合 ...
Python与C语言基础对比（Python快速入门）
代码较长,建议使用电脑阅读本文. 10分钟入门Python 本文中使用的是Python3 如果你曾经学过C语言,阅读此文,相信你能迅速发现这两种语言的异同,达到快速入门的目的.下面将开始介绍它们的异同 ...
Java中的Collections类
转载:https://blog.csdn.net/yangxingpa/article/details/80515963 从[Java]Java中的Collections类——Java中升级版的数据结 ...
题解【洛谷P1995】口袋的天空
题面题解从图中删边,直到图中只剩\(k\)条边,计算权值之和即可. 代码 #include <iostream> #include <cstdio> #include &l ...
Servlet文件上传下载
今天我们来学习Servlet文件上传下载 Servlet文件上传主要是使用了ServletInputStream读取流的方法,其读取方法与普通的文件流相同. 一.文件上传相关原理第一步,构建一个up ...
selenium chromedriver退出报错
记录使用python调用chromedriver时遇到的问题代码: #!/usr/bin/env python #-*- coding:utf-8 -*- # author : fy # versi ...
git 提交的时候建立排除文件夹或者文件
1.在Git的根仓库下 touch .gitignore 2.编辑这个文件
CefApp和CefClient的作用
CefApp 在cefsimple中,提到了一个cefapp的类型,这个类型是一个接口类,主要目的是提供获取三种handler的接口 /// // Implement this interface t ...
8.10-Day1T1-数字（number）
数字number 题目大意给定n,k,s,从1到n中取出k个数,使其之和等于s 求可行的方案数(模1e9+7) 题解一眼dp,于是我去写了dfs,带着少的可怜的剪枝,快乐的tle着... 设 f[ ...

html解析のBeautifulSoup

引子：

安装：

使用：

获取指定标签及内容

获取链接

获取内容

html解析のBeautifulSoup的更多相关文章

随机推荐

热门专题