创建一个新网站，一开始没有内容，通常需要抓取其他人的网页内容，一般的操作步骤如下：

根据url下载网页内容，针对每个网页的html结构特征，利用正则表达式，或者其他的方式，做文本解析，提取出想要的正文。

为每个网页写特征分析这个还是太耗费开发的时间，我的思路是这样的。

Python的BeautifulSoup包大家都知道吧，

import BeautifulSoup

soup = BeautifulSoup.BeautifulSoup(html)

利用这个包先把html里script，style给清理了：

[script.extract() for script in soup.findAll('script')]

[style.extract() for style in soup.findAll('style')]

清理完成后，这个包有一个prettify()函数，把代码格式给搞的标准一些：

soup.prettify()

然后用正则表达式，把所有的HTML标签全部清理了：

reg1 = re.compile("<[^>]*>")

content = reg1.sub('',soup.prettify())

剩下的都是纯文本的文件了，通常是一行行的，把空白行给排除了，这样就会知道总计有多少行，每行的字符数有多少，我用excel搞了一些每行字符数的统计，如下图：

x坐标为行数，y坐标为该行的字符数

很明显，会有一个峰值，81~91行就应该是这个网页的正文部分。我只需要提取81~91行的文字就行了。

问题来了，照着这个思路，有什么好的算法能够通过数据分析的方式统计出长文本的峰值在哪几行？

BeautifulSoup不仅仅只是可以查找，定位和修改文档内容，同样也可以用一个好的格式进行输出显示。BeautifulSoup可以处理不同类型的输出：

格式化的输出
非格式化的输出

格式化输出

BeautifulSoup中有内置的方法prettfy()来实现格式化输出。比如：

from bs4 import BeautifulSoup
html_markup = “””<p class=”ecopyramid”>
<ul id=”producers”>
<li class=”producerlist”>
<div class=”name”>plants</div>
<div class=”number”>100000</div>
</li>
<li class=”producerlist”>
<div class=”name”>algae</div>
Output in Beautiful Soup
<div class=”number”>100000</div>
</li>
</ul>”””
soup = BeautifulSoup(html_markup,“lxml”)
print(soup.prettify())

输出：

prettify()可以用于BeautifulSoup对象也可以用于任何标签对象。比如：

producer_entry = soup.ul
print(producer_entry.prettify())

非格式化输出

可以使用str()和unicode()来进行非格式化输出。

如果我们对BeautifulSoup对象和标签对象使用str()方法，那么得到的就是一般的字符串输出样式。

我们也可以使用前篇讲到的encode()方法来指定编码格式的输出。

对BeautifulSoup对象或标签对象使用decode()方法来得到Unicode字符串。

BeautifulSoup中的输出格式化

HTML实体编码可以放进HTML文档中用来表示特别的字符和标识。这些标识不存在于键盘上，这些HTML实体编码只是当浏览器打开后才回看到效果。

在输出方法中，只有这几个HTML编码有点例外。>和<和&三个符号。除此之外其他的特别标识都是被转换成Unicode编码当创建BeautifulSoup对象时，且当使用Prettify()方法或者其他方法输出时，我们只能得到UTF-8格式的字符串。

html_markup = “””<html>
<body>& & ampersand
¢ ¢ cent
© © copyright
÷ ÷ divide
> > greater than
</body>
</html>

输出：

可以看到两个没有被转换。BeautifulSoup自带的输出格式器来控制输出。输出格式器有以下几种类型。

miimal
html
None
function

我们可以在输出方法中传递上述输出格式器参数，如prettify(),ncode(),decode()

miimal格式化

在这种格式化模式下，字符串被处理成一个有效的HTML代码。这是默认的格式化输出，此时输出结果就和前面的一样。不能转换&, >和<

Html格式化

这种格式化模式下，BeautifulSoup将会将Unicode字符转换成HTML编码形式。
print(soup.prettify(formatter=”html”))

输出：

None格式化

这种情况下，BeautifulSoup不会改变字符串。这会导致产生一个非法的HTML代码。

print(soup.prettify(formatter=None))

输出：

函数格式化

我们可以定义一个函数来处理字符串。比如去掉a字符。

def remove_chara(markup):
return markup.replace(“a”,””)
soup = BeautifulSoup(html_markup,“lxml”)
print(soup.prettify(formatter=remove_chara))

输出：

注意，其中字符a被替换掉了，但是注意的是&, >,和<也被转换了。

使用get_text()

从网页中得到文本是常见的工作，BeautifulSoup提供了get_text()方法来达到目的。

如果我们只想得到BeautifulSoup对象的文本或标签对象的文本内容，我们可以使用get_text()方法。比如：

html_markup = “””<p class=”ecopyramid”>
<ul id=”producers”>
<li class=”producerlist”>
<div class=”name”>plants</div>
<div class=”number”>100000</div>
</li>
<li class=”producerlist”>
<div class=”name”>algae</div>
<div class=”number”>100000</div>
</li>
</ul>”””
soup = BeautifulSoup(html_markup,“lxml”)
print(soup.get_text())

输出：

plants
100000

algae
100000

get_text()方法返回BeautifulSoup对象或标签对象中的文本内容，其为一个Unicode字符串。但是get_text()有个问题是它同样也会返回javascript代码。

去掉javascript代码的方法如下：

[x.extract() for x in soup_packtpage.find_all(‘script’)]

这样就会用处掉所有脚本元素。

网页内容爬取：如何提取正文内容 BEAUTIFULSOUP的输出的更多相关文章

scrapy(四): 爬取二级页面的内容
scrapy爬取二级页面的内容 1.定义数据结构item.py文件 # -*- coding: utf-8 -*- ''' field: item.py ''' # Define here the m ...
Scrapy 框架使用 selenium 爬取动态加载内容
使用 selenium 爬取动态加载内容开启中间件 DOWNLOADER_MIDDLEWARES = { 'wangyiPro.middlewares.WangyiproDownloaderMidd ...
帝国CMS批量提取正文内容到简介
最近接到一个帝国CMS模板改版项目,自带的数据可能是采集的,以前的简介字段内容只截取了60个字,新模板的简介60字符太少了,不美观,想让简介都截取200个字,怎么批量修改呢,文章太多了手动改肯定不行, ...
Python写网络爬虫爬取腾讯新闻内容
最近学了一段时间的Python,想写个爬虫,去网上找了找,然后参考了一下自己写了一个爬取给定页面的爬虫. Python的第三方库特别强大,提供了两个比较强大的库,一个requests, 另外一个Bea ...
Python 基础语法+简单地爬取百度贴吧内容
Python笔记 1.Python3和Pycharm2018的安装 2.Python3基础语法 2.1.1.数据类型 2.1.1.1.数据类型:数字(整数和浮点数) 整数:int类型浮点数:floa ...
Python 爬虫 ajax爬取马云爸爸微博内容
ajax爬取情况有时候我们在用 Requests 抓取页面的时候,得到的结果可能和在浏览器中看到的是不一样的,在浏览器中可以看到正常显示的页面数据,但是使用 Requests 得到的结果并没有,这其 ...
java 如何爬取百度百科词条内容(java如何使用webmagic爬取百度词条)
这是老师所布置的作业说一下我这里的爬去并非能把百度词条上的内容一字不漏的取下来(而是它分享链接的一个主要内容概括...)(他的主要内容我爬不到也不想去研究大家有好办法可以call me) 例如互 ...
使用Python爬取网页的相关内容（图片，文字，链接等等）
代码解释的很详细了,有不明白的欢迎评论 ~~~滑稽 import requests from bs4 import BeautifulSoup # #获取图片输入网址 req=requests.ge ...
python爬虫：爬取读者某一期内容
学会了怎么使用os模块 #!/usr/bin/python# -*- encoding:utf-8 -*- import requestsimport osfrom bs4 import Beauti ...

随机推荐

[52ABP系列] - 001、SPA免费项目模版搭建教程
前言这个项目是基于 ABP ASPNetCore 免费版,整合 NG-Alian 和 NG-Zorro 的项目,所以比较适合熟悉 ABP 和 Angular2+ 的开发人员, 如果你是新手,学习的话 ...
[转]chrome 的devtools 中setting 开启workspace , 也有点用处。不是很大
转载的,原文: http://wiki.jikexueyuan.com/project/chrome-devtools/saving-changes-with-workspaces.html ---- ...
关于使用data()获取自定义属性出现undefined的说明
这应该是这个函数的一个bug,没有考虑到驼峰式的写法,当我写成驼峰式,即是有大小写的变量时就会出现没有定义的情况. 今天写个交互,需要用到自定义属性,因为这个自定义属性是当作字段用的,就直接用了字段名 ...
javascript里的prototype
在javascript中,prototype是函数的一个固有属性,其他对象,比如字符串什么的,并没有这个属性. 这个属性做什么用呢? 1.用于该函数的所有实例进行共享比如,共同的属性,共同的方法.类 ...
{转}Python IDLE中文乱码
http://hi.baidu.com/yobin/item/166e3a46537781d3c1a59257 乱码原因:因为你的文件声明为utf-8,并且也应该是用utf-8的编码保存的源文件.但是 ...
jar包和动态链接库
1 jar包更接近于动态链接库 java在编译的时候,尽管import了其它的jar包,但是它并没有将其它jar包中的源码拷贝到自己的class文件中,它只是使用了jar包中的名字. 而在执行的时候, ...
POJ2127 Greatest Common Increasing Subsequence
POJ2127 给定两个整数序列,求LCIS(最长公共上升子序列) dp[i][j]表示A的A[1.....i]与B[1.....j]的以B[j]为结尾的LCIS. 转移方程很简单当A[i]!=B ...
Java多线程系列二——Thread类的方法
Thread实现Runnable接口并实现了大量实用的方法 public static native void yield(); 此方法释放CPU,但并不释放已获得的锁,其它就绪的线程将可能得到执行机 ...
Oracle.ManagedDataAccess.dll
C#使用Oracle.ManagedDataAccess.dll System.Data.OracleClient程序集没有多大的不同,基本上拿以前使用System.Data.OracleClient ...
bzoj 1754: [Usaco2005 qua]Bull Math【高精乘法】
高精乘法板子然而WA了两次也是没救了 #include<iostream> #include<cstdio> #include<cstring> using na ...

网页内容爬取：如何提取正文内容 BEAUTIFULSOUP的输出