python实现文章或博客的自动摘要(附java版开源项目)

写博客的时候，都习惯给文章加入一个简介。现在可以自动完成了！
TF-IDF与余弦相似性的应用（三）：自动摘要 - 阮一峰的网络日志
http://www.ruanyifeng.com/blog/2013/03/automatic_summarization.html

idf.txt来自 https://github.com/jannson/yaha/blob/master/yaha/analyse/idf.txt
python分词库中：https://github.com/jannson/yaha
使用summarize3 需要安装numpy库。

GitHub - jannson/yaha: yaha
https://github.com/jannson/yaha

基本功能：
精确模式，将句子切成最合理的词。
全模式，所有的可能词都被切成词，不消除歧义。
搜索引擎模式，在精确的基础上再次驿长词进行切分，提高召回率，适合搜索引擎创建索引。
备选路径，可生成最好的多条切词路径，可在此基础上根据其它信息得到更精确的分词模式。
可用插件：

正则表达式插件
人名前缀插件
地名后缀插件
定制功能。分词过程产生4种阶段，每个阶段都可以加入个人的定制。

附加功能：
新词学习功能。通过输入大段文字，学习到此内容产生的新老词语。（添加了一个由我朋友实现的C++版本的最大熵新词发现功能，速度是python的10倍吧）
获取大段文本的关键字。
获取大段文本的摘要。
词语纠错功能（新！常用在搜索里对用户的错误输入进行纠正）
支持用户自定义词典（TODO目前还没有实现得很好）

======================================

Python实现提取文章摘要的方法
一、概述
在博客系统的文章列表中，为了更有效地呈现文章内容，从而让读者更有针对性地选择阅读，通常会同时提供文章的标题和摘要。
一篇文章的内容可以是纯文本格式的，但在网络盛行的当今，更多是HTML格式的。无论是哪种格式，摘要一般都是文章开头部分的内容，可以按照指定的字数来提取。

二、纯文本摘要
纯文本文档就是一个长字符串，很容易实现对它的摘要提取：
#!/usr/bin/env python
# -*- coding: utf-8 -*-
"""Get a summary of the TEXT-format document"""
def get_summary(text, count):
u"""Get the first `count` characters from `text`
>>> text = u'Welcome 这是一篇关于Python的文章'
>>> get_summary(text, 12) == u'Welcome 这是一篇'
True
"""
assert(isinstance(text, unicode))
return text[0:count]
if __name__ == '__main__':
import doctest
doctest.testmod()

三、HTML摘要
HTML文档中包含大量标记符（如<h1>、、<a>等等），这些字符都是标记指令，并且通常是成对出现的，简单的文本截取会破坏HTML的文档结构，进而导致摘要在浏览器中显示不当。
在遵循HTML文档结构的同时，又要对内容进行截取，就需要解析HTML文档。在Python中，可以借助标准库 HTMLParser 来完成。

一个最简单的摘要提取功能，是忽略HTML标记符而只提取标记内部的原生文本。以下就是类似该功能的Python实现：
#!/usr/bin/env python
# -*- coding: utf-8 -*-
"""Get a raw summary of the HTML-format document"""
from HTMLParser import HTMLParser
class SummaryHTMLParser(HTMLParser):
"""Parse HTML text to get a summary
>>> text = u'Hi guys:This is a example using SummaryHTMLParser.'
>>> parser = SummaryHTMLParser(10)
>>> parser.feed(text)
>>> parser.get_summary(u'...')
u'Higuys:Thi...'
"""
def __init__(self, count):
HTMLParser.__init__(self)
self.count = count
self.summary = u''
def feed(self, data):
"""Only accept unicode `data`"""
assert(isinstance(data, unicode))
HTMLParser.feed(self, data)
def handle_data(self, data):
more = self.count - len(self.summary)
if more > 0:
# Remove possible whitespaces in `data`
data_without_whitespace = u''.join(data.split())
self.summary += data_without_whitespace[0:more]
def get_summary(self, suffix=u'', wrapper=u'p'):
return u'<{0}>{1}{2}</{0}>'.format(wrapper, self.summary, suffix)
if __name__ == '__main__':
import doctest
doctest.testmod()

HTMLParser（或者 BeautifulSoup 等等）更适合完成复杂的HTML摘要提取功能，对于上述简单的HTML摘要提取功能，其实有更简洁的实现方案（相比 SummaryHTMLParser 而言）：
#!/usr/bin/env python
# -*- coding: utf-8 -*-
"""Get a raw summary of the HTML-format document"""
import re
def get_summary(text, count, suffix=u'', wrapper=u'p'):
"""A simpler implementation (vs `SummaryHTMLParser`).
>>> text = u'Hi guys:This is a example using SummaryHTMLParser.'
>>> get_summary(text, 10, u'...')
u'Higuys:Thi...'
"""
assert(isinstance(text, unicode))
summary = re.sub(r'<.*?>', u'', text) # key difference: use regex
summary = u''.join(summary.split())[0:count]
return u'<{0}>{1}{2}</{0}>'.format(wrapper, summary, suffix)
if __name__ == '__main__':
import doctest
doctest.testmod()

======================================

另外一个比较好的java版本的开源实现：
https://github.com/hankcs/HanLP
HanLP是由一系列模型与算法组成的Java工具包，目标是普及自然语言处理在生产环境中的应用。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。
自然语言处理中文分词词性标注命名实体识别依存句法分析关键词提取自动摘要短语提取拼音简繁转换
根据文章内容自动提取tag

python实现文章或博客的自动摘要(附java版开源项目)的更多相关文章

用python爬虫监控CSDN博客阅读量
作为一个博客新人,对自己博客的访问量也是很在意的,刚好在学python爬虫,所以正好利用一下,写一个python程序来监控博客文章访问量效果代码会自动爬取文章列表,并且获取标题和访问量,写入exc ...
Python课程设计搭建博客
安装包Github地址 Python综合设计 233博客注意还有个email文件是需要填入自己信息的,比如最高权限账号和要发送邮件的账号密码请安装Python2.7环境,本服务器所用环境为设置环 ...
python抓取51CTO博客的推荐博客的全部博文，对标题分词存入mongodb中
原文地址: python抓取51CTO博客的推荐博客的全部博文,对标题分词存入mongodb中
手把手教从零开始在GitHub上使用Hexo搭建博客教程(一)-附GitHub注册及配置
前言有朋友问了我关于博客系统搭建相关的问题,由于是做开发相关的工作,我给他推荐的是使用github的gh-pages服务搭建个人博客. 推荐理由: 免费:github提供gh-pages服务是免费的 ...
使用Hexo搭建GitHub博客（2018年Mac版）
关于本文本文仅记录自己学习搭建Hexo博客之时,搭建过程中掉坑的历程总结,对零基础起步的观众朋友可能缺乏某些基础技术的指导,请优先食用下述两篇优质教程: [2018更新]小白独立搭建博客-Githu ...
推荐一款自研的Java版开源博客系统OneBlog
OneBlog 一款超好用的Java版开源博客 Introduction 简介 OneBlog 一个简洁美观.功能强大并且自适应的Java博客.使用springboot开发,前端使用Boot ...
在博客中显示图片_Mac版
主要是防止自己忘掉为了解决一开始自己想在写入的博客中添加本地图片,直接链接的话在自己的电脑倒是可以显示图片,但是在别人的电脑上就没办法加载图片了,问各路大神也没人愿意解答,百度也没有想要的答案,只好 ...
Python爬取CSDN博客文章
0 url :http://blog.csdn.net/youyou1543724847/article/details/52818339Redis一点基础的东西目录 1.基础底层数据结构 2.win ...
用Python给你的博客加上水印
之前写的博客里面用到的图片都没有加水印,今天才在别的网站上发现自己的博客居然一个字不动的出现在了别人的文章里,而且还不标注出处,简直醉了. 其实博客这种东西讲真我是很愿意让别人看得,因为自己写的也比较 ...

随机推荐

Android 关于ListView中adapter调用notifyDataSetChanged无效的原因
话说这个问题已经困扰我很久了,一直找不到原因,我以为只要数据变了,调用adapter的notifyDataSetChanged就会更新列表,最近在做微博帐号管理这一块,想着动态更新列表,数据是变了,但 ...
Spring MVC框架下在java代码中访问applicationContext.xml文件中配置的文件（可以用于读取配置文件内容）
<bean id="propertyConfigurer" class="com.****.framework.core.SpringPropertiesUtil& ...
webconfig和appconfig中出现特殊字符如何处理
在配置文件出现特殊字符&的字符串(如:abce&efg),就会报错.错误如下: 如何处理呢? config文件的本质是xml,所以必须符合xml的规范我们需要这么处理: abce&am ...
第三方cookie与搜索引擎+网站广告原理
cookie 摘自 : http://www.williamlong.info/archives/3125.html 关于cookie的安全知识 :http://shaoshuai.me/tech/2 ...
my.cnf详解
[client] port = 3306 socket = /tmp/mysql.sock [mysqld] port = 3306 socket = /tmp/mysql.sock basedir ...
rsync+sersync实时同步
A: 运行rsync daemonB: 运行sersync ,会监控目录,发现改变会更新推送到A上 rsync见上面rsync设置 sersync安装配置1.建立目录mkdir -p /opt/ser ...
screen命令学习
我们有时需要做一些长时间的工作,比如格式化一个20T的raid磁盘,可能需要几个小时以上,如果只是执行格式化的话,由于网络不稳定,或者要下班了,还没格式化完成,关闭了ssh的窗口,命令可能就执行失败了 ...
鼠标放上去，不同的cursor光标类型
<!DOCTYPE html><html lang="zh-cmn-Hans"><head><meta charset="utf ...
Java堆
1. Java堆的内存是由操作系统分配给JVM的内存部分. 2. Java的对象是在堆中创建 3. Java堆空间为了垃圾回收分为三个区域或代,叫做新代,年老代和永久代.在Hotspot JVM中永久 ...
lvs负载均衡的搭建
lvs负载均衡的搭建作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 在部署环境前,我们需要了解一下一些协议一.什么是arp 地址解析协议,即ARP(Addr ...

python实现文章或博客的自动摘要(附java版开源项目)

python实现文章或博客的自动摘要(附java版开源项目)的更多相关文章

随机推荐

热门专题