一、概述

在博客系统的文章列表中，为了更有效地呈现文章内容，从而让读者更有针对性地选择阅读，通常会同时提供文章的标题和摘要。

一篇文章的内容可以是纯文本格式的，但在网络盛行的当今，更多是HTML格式的。无论是哪种格式，摘要一般都是文章 开头部分 的内容，可以按照指定的字数来提取。

二、纯文本摘要

纯文本文档 就是一个长字符串，很容易实现对它的摘要提取：

#!/usr/bin/env python

# -*- coding: utf-8 -*-

"""Get a summary of the TEXT-format document"""

def get_summary(text, count):

    u"""Get the first `count` characters from `text`

        >>> text = u'Welcome 这是一篇关于Python的文章'

        >>> get_summary(text, 12) == u'Welcome 这是一篇'

        True

    """

    assert(isinstance(text, unicode))

    return text[0:count]

if __name__ == '__main__':

    import doctest

    doctest.testmod()

三、HTML摘要

HTML文档 中包含大量标记符（如&lth1&gt、&ltp&gt、&lta&gt等等），这些字符都是标记指令，并且通常是成对出现的，简单的文本截取会破坏HTML的文档结构，进而导致摘要在浏览器中显示不当。

在遵循HTML文档结构的同时，又要对内容进行截取，就需要解析HTML文档。在Python中，可以借助标准库 HTMLParser 来完成。

一个最简单的摘要提取功能，是忽略HTML标记符而只提取标记内部的原生文本。如果您不明白我说的意思，可以看看博客园的摘要功能，以下就是类似该功能的Python实现：

#!/usr/bin/env python

# -*- coding: utf-8 -*-

"""Get a raw summary of the HTML-format document"""

from HTMLParser import HTMLParser

class SummaryHTMLParser(HTMLParser):

    """Parse HTML text to get a summary

        >>> text = u'<p>Hi guys:</p><p>This is a example using SummaryHTMLParser.</p>'

        >>> parser = SummaryHTMLParser(10)

        >>> parser.feed(text)

        >>> parser.get_summary(u'...')

        u'<p>Higuys:Thi...</p>'

    """

    def __init__(self, count):

        HTMLParser.__init__(self)

        self.count = count

        self.summary = u''

    def feed(self, data):

        """Only accept unicode `data`"""

        assert(isinstance(data, unicode))

        HTMLParser.feed(self, data)

    def handle_data(self, data):

        more = self.count - len(self.summary)

        if more > 0:

            # Remove possible whitespaces in `data`

            data_without_whitespace = u''.join(data.split())

            self.summary += data_without_whitespace[0:more]

    def get_summary(self, suffix=u'', wrapper=u'p'):

        return u'<{0}>{1}{2}</{0}>'.format(wrapper, self.summary, suffix)

if __name__ == '__main__':

    import doctest

    doctest.testmod()

========== 更新 ==========

HTMLParser（或者 BeautifulSoup 等等）更适合完成复杂的HTML摘要提取功能，对于上述简单的HTML摘要提取功能，其实有更简洁的实现方案（相比 SummaryHTMLParser 而言）：

#!/usr/bin/env python

# -*- coding: utf-8 -*-

"""Get a raw summary of the HTML-format document"""

import re

def get_summary(text, count, suffix=u'', wrapper=u'p'):

    """A simpler implementation (vs `SummaryHTMLParser`).

        >>> text = u'<p>Hi guys:</p><p>This is a example using SummaryHTMLParser.</p>'

        >>> get_summary(text, 10, u'...')

        u'<p>Higuys:Thi...</p>'

    """

    assert(isinstance(text, unicode))

    summary = re.sub(r'<.*?>', u'', text) # key difference: use regex

    summary = u''.join(summary.split())[0:count]

    return u'<{0}>{1}{2}</{0}>'.format(wrapper, summary, suffix)

if __name__ == '__main__':

    import doctest

    doctest.testmod()

Python实践：提取文章摘要的更多相关文章

Python实践：开篇
一.概述 Python实践是应用Python解决实际问题的案例集合,这些案例中的Python应用通常功能各异.大小不一. 该系列文章是本人应用Python的实践总结,会不定期更新. 二.目录 Py ...
SnowNLP：•中文分词•词性标准•提取文本摘要,•提取文本关键词,•转换成拼音•繁体转简体的处理中文文本的Python3 类库
SnowNLP是一个python写的类库,可以方便的处理中文文本内容,是受到了TextBlob的启发而写的,由于现在大部分的自然语言处理库基本都是针对英文的,于是写了一个方便处理中文的类库,并且和Te ...
机器学习算法与Python实践之（三）支持向量机（SVM）进阶
机器学习算法与Python实践之(三)支持向量机(SVM)进阶机器学习算法与Python实践之(三)支持向量机(SVM)进阶 zouxy09@qq.com http://blog.csdn.net/ ...
(转) K-Means聚类的Python实践
本文转自: http://python.jobbole.com/87343/ K-Means聚类的Python实践 2017/02/11 · 实践项目 · K-means, 机器学习分享到:1 原文 ...
Python实践练习目录
缘由做中学才是最好的方法,通过这些项目来加强自己的Python掌握程度. 原则成体系地学,不搞"题海战术" 通所有不如精一物,精一物方可通所有走心学,忌浮躁项目列表字符串 ...
django 使用内建过滤器实现文章摘要效果
django 使用内建过滤器实现文章摘要效果前端html代码 <div class="list-group"> {% if articles %} {% for ar ...
Django HTML 显示文章摘要
在用Django写个人博客,发现一般都是标题加上文章摘要,然后点击标题可以看详细内容.这样主页就可以多显示几篇文章. 那么就要用到文章摘要功能. 比如要100个字的文章摘要,就可以这样写: {{art ...
wordpress自动截取文章摘要代码
想要实现 wordpress 首页显示摘要有几种方法: 第一种,可以在写文章的时侯在需要分割的地方加入<!–more–>标签,但在输出首页摘要的同时,也会使feed只显示摘要,不方便读者阅 ...
dedecms首页调用的简介一直修改不了是自动文章摘要在作怪
一位美女问:dedecms首页调用的简介一直修改不了,ytkah让她到具体的文章修改,然后再重新生成一下首页.她说还是不行.那就奇了怪了,点击到具体的文章页面是显示已经修改好了,为什么首页还是原来的呢 ...

随机推荐

关于git提交的自己的理解
包子不才,对于码云上的git的使用,自己的理解是这个命令用于查看,哪些文件被修改了,以及修改了哪些地方, 这个命令用于增加你新添的文件,如果该文件已经存在,那么这一步则可以省略,随后就是commit ...
Visual Studio 2015 各版本神KEY
Visual Studio 2015 简体中文专业版专业版神Key:HMGNV-WCYXV-X7G9W-YCX63-B98R2 Visual Studio 2015 繁体中文企业版企业版神Key1:H ...
在docker里面安装部署应用
最近一直在做docker的安装打包工作,学到不少东西,在博客里记一下. 环境centos6 ,docker 基础镜象centos6 1.创建本地基础镜象,安装基础命令包 (1)Dockerfile,D ...
android edittext 去边框
EditText的background属性设置为@null就搞定了:android:background="@null" style属性倒是可加可不加附原文:@SlumberMa ...
hiho一下第九十五周数论四·扩展欧几里德
题目 : 数论四·扩展欧几里德时间限制:10000ms 单点时限:1000ms 内存限制:256MB 描述小Hi和小Ho周末在公园溜达.公园有一堆围成环形的石板,小Hi和小Ho分别站在不同的石板上 ...
angular js 自定义指令
我们有些时候需要把后台返回过来的带有html标签的字符串binding到界面中一个指定的div或者其他的控制器中. 使用普通ng-bind不会自动解析出html语句. js中这样定义: app.dir ...
使用caffe自动测试模型top5的结果
方法很简单,直接在定义网络的prototxt里面最后加一层就可以了. 这一层定义如下 layer { name: "accuracy_5" type: "Accuracy ...
HDU 1978 记忆化搜索（dfs+dp）
Y - How many ways Time Limit:1000MS Memory Limit:32768KB 64bit IO Format:%I64d & %I64u S ...
Linux下常用程序的代理服务器(proxy)配置
Linux下有很多程序都只有命令行接口,对于这类程序,它们通过代理服务器(proxy)访问网络的方式也不尽相同.在本文中Easwy总结了一些常用Linux程序配置代理服务器的方法. [ 通用代理服务器 ...
July 21st, Week 30th Thursday, 2016
What youth deemed crystal, age finds out was dew. 年少时的水晶,在岁月看来不过是露珠. As time goes by, we are gradual ...

Python实践：提取文章摘要

一、概述

二、纯文本摘要

三、HTML摘要

Python实践：提取文章摘要的更多相关文章

随机推荐

热门专题