python实现的一个中文文本摘要程序
文本摘要方法有很多,主要分为抽取式和生成式,应用比较多的是抽取式,也比较简单,就是从文本中抽取重要的句子或段落。本方法主要是利用句子中的关键词的距离,主要思想和参考来自阮一峰的网络日志http://www.ruanyifeng.com/blog/2013/03/automatic_summarization.html
#!/user/bin/python
# coding:utf-8
__author__ = 'yan.shi'
import nltk
import numpy
import jieba
import codecs N=100#单词数量
CLUSTER_THRESHOLD=5#单词间的距离
TOP_SENTENCES=5#返回的top n句子 #分句
def sent_tokenizer(texts):
start=0
i=0#每个字符的位置
sentences=[]
punt_list='.!?。!?'.decode('utf8') #',.!?:;~,。!?:;~'.decode('utf8')
for text in texts:
if text in punt_list and token not in punt_list: #检查标点符号下一个字符是否还是标点
sentences.append(texts[start:i+1])#当前标点符号位置
start=i+1#start标记到下一句的开头
i+=1
else:
i+=1#若不是标点符号,则字符位置继续前移
token=list(texts[start:i+2]).pop()#取下一个字符
if start<len(texts):
sentences.append(texts[start:])#这是为了处理文本末尾没有标点符号的情况
return sentences #停用词
def load_stopwordslist(path):
print('load stopwords...')
stoplist=[line.strip() for line in codecs.open(path,'r',encoding='utf8').readlines()]
stopwrods={}.fromkeys(stoplist)
return stopwrods #摘要
def summarize(text):
stopwords=load_stopwordslist('E:\stopwords.txt')
sentences=sent_tokenizer(text)
words=[w for sentence in sentences for w in jieba.cut(sentence) if w not in stopwords if len(w)>1 and w!='\t']
wordfre=nltk.FreqDist(words)
topn_words=[w[0] for w in sorted(wordfre.items(),key=lambda d:d[1],reverse=True)][:N]
scored_sentences=_score_sentences(sentences,topn_words)
#approach 1,利用均值和标准差过滤非重要句子
avg=numpy.mean([s[1] for s in scored_sentences])#均值
std=numpy.std([s[1] for s in scored_sentences])#标准差
mean_scored=[(sent_idx,score) for (sent_idx,score) in scored_sentences if score>(avg+0.5*std)]
#approach 2,返回top n句子
top_n_scored=sorted(scored_sentences,key=lambda s:s[1])[-TOP_SENTENCES:]
top_n_scored=sorted(top_n_scored,key=lambda s:s[0])
return dict(top_n_summary=[sentences[idx] for (idx,score) in top_n_scored],mean_scored_summary=[sentences[idx] for (idx,score) in mean_scored]) #句子得分
def _score_sentences(sentences,topn_words):
scores=[]
sentence_idx=-1
for s in [list(jieba.cut(s)) for s in sentences]:
sentence_idx+=1
word_idx=[]
for w in topn_words:
try:
word_idx.append(s.index(w))#关键词出现在该句子中的索引位置
except ValueError:#w不在句子中
pass
word_idx.sort()
if len(word_idx)==0:
continue
#对于两个连续的单词,利用单词位置索引,通过距离阀值计算族
clusters=[]
cluster=[word_idx[0]]
i=1
while i<len(word_idx):
if word_idx[i]-word_idx[i-1]<CLUSTER_THRESHOLD:
cluster.append(word_idx[i])
else:
clusters.append(cluster[:])
cluster=[word_idx[i]]
i+=1
clusters.append(cluster)
#对每个族打分,每个族类的最大分数是对句子的打分
max_cluster_score=0
for c in clusters:
significant_words_in_cluster=len(c)
total_words_in_cluster=c[-1]-c[0]+1
score=1.0*significant_words_in_cluster*significant_words_in_cluster/total_words_in_cluster
if score>max_cluster_score:
max_cluster_score=score
scores.append((sentence_idx,max_cluster_score))
return scores; if __name__=='__main__':
dict=summarize(u'腾讯科技讯(刘亚澜)10月22日消息,'
u'前优酷土豆技术副总裁黄冬已于日前正式加盟芒果TV,出任CTO一职。'
u'资料显示,黄冬历任土豆网技术副总裁、优酷土豆集团产品技术副总裁等职务,'
u'曾主持设计、运营过优酷土豆多个大型高容量产品和系统。'
u'此番加入芒果TV或与芒果TV计划自主研发智能硬件OS有关。'
u'今年3月,芒果TV对外公布其全平台日均独立用户突破3000万,日均VV突破1亿,'
u'但挥之不去的是业内对其技术能力能否匹配发展速度的质疑,'
u'亟须招揽技术人才提升整体技术能力。'
u'芒果TV是国内互联网电视七大牌照方之一,之前采取的是“封闭模式”与硬件厂商预装合作,'
u'而现在是“开放下载”+“厂商预装”。'
u'黄冬在加盟土豆网之前曾是国内FreeBSD(开源OS)社区发起者之一,'
u'是研究并使用开源OS的技术专家,离开优酷土豆集团后其加盟果壳电子,'
u'涉足智能硬件行业,将开源OS与硬件结合,创办魔豆智能路由器。'
u'未来黄冬可能会整合其在开源OS、智能硬件上的经验,结合芒果的牌照及资源优势,'
u'在智能硬件或OS领域发力。'
u'公开信息显示,芒果TV在今年6月对外宣布完成A轮5亿人民币融资,估值70亿。'
u'据芒果TV控股方芒果传媒的消息人士透露,芒果TV即将启动B轮融资。')
print('-----------approach 1-------------')
for sent in dict['top_n_summary']:
print(sent)
print('-----------approach 2-------------')
for sent in dict['mean_scored_summary']:
print(sent)
下面是测试结果:
python实现的一个中文文本摘要程序的更多相关文章
- 用Python写的一个多线程机器人聊天程序
本人是从事php开发的, 近来想通过php实现即时通讯(兼容windows).后来发现实现起来特别麻烦, 就想到python.听说这家伙在什么地方都能发挥作用.所以想用python来做通讯模块...所 ...
- 如何用java完成一个中文词频统计程序
要想完成一个中文词频统计功能,首先必须使用一个中文分词器,这里使用的是中科院的.下载地址是http://ictclas.nlpir.org/downloads,由于本人电脑系统是win32位的,因此下 ...
- python 模拟实现一个ATM + 购物商城程序
思路:ATM是一个单独程序,提供给消费的是一个接口core下的settlement.py,只做了个人的,没写管理的模块 Shopping也是一个单独的,只做了一个购物的消费模块,没写商家模块,偷懒用了 ...
- Python中判断一个中文是否中文数字的方法
Python内置功能非常强大,在字符串内置函数中提供了一个判断字符串是否全数字的方法,而且这个方法不只是简单判断阿拉伯数字,包括中文数字和全角的阿拉伯数字都认识,这个函数就是字符串的isnumeric ...
- 初学python类编的一个求矩形小程序
简单的程序不简单,里面包含类定义类,传参,初始化,方法调用,创建实例,格式输出.主要在python中随时定义变量随时用,我这道题题想好久就是我初识类,传参,不是所有参数都的加单引号.简单的东西,复杂话 ...
- 基于Text-CNN模型的中文文本分类实战 流川枫 发表于AI星球订阅
Text-CNN 1.文本分类 转眼学生生涯就结束了,在家待就业期间正好有一段空闲期,可以对曾经感兴趣的一些知识点进行总结. 本文介绍NLP中文本分类任务中核心流程进行了系统的介绍,文末给出一个基于T ...
- 基于Text-CNN模型的中文文本分类实战
Text-CNN 1.文本分类 转眼学生生涯就结束了,在家待就业期间正好有一段空闲期,可以对曾经感兴趣的一些知识点进行总结. 本文介绍NLP中文本分类任务中核心流程进行了系统的介绍,文末给出一个基于T ...
- 推荐 | 中文文本标注工具Chinese-Annotator(转载)
自然语言处理的大部分任务是监督学习问题.序列标注问题如中文分词.命名实体识别,分类问题如关系识别.情感分析.意图分析等,均需要标注数据进行模型训练.深度学习大行其道的今天,基于深度学习的 NLP 模型 ...
- SnowNLP:一个处理中文文本的 Python 类库[转]
SnowNLP是一个python写的类库,可以方便的处理中文文本内容,是受到了TextBlob的启发而写的,由于现在大部分的自然语言处理库基本都是针对英文的,于是写了一个方便处理中文的类库,并且和Te ...
随机推荐
- 批量操作checkbox
通过post可获取选中的checkbox的value值,然后可以action到某一页面通过$_POST[]处理得到的checkbox的值,然后进行批量化增删改查等操作. // 关键性语句: <i ...
- python网络编程-socket套接字通信循环-粘包问题-struct模块-02
前置知识 不同计算机程序之间数据的传输 应用程序中的数据都是从程序所在计算机内存中读取的. 内存中的数据是从硬盘读取或者网络传输过来的 不同计算机程序数据传输需要经过七层协议物理连接介质才能到达目标程 ...
- Spring框架是怎么解决Bean之间的循环依赖的 (转)
问题: 循环依赖其实就是循环引用,也就是两个或则两个以上的bean互相持有对方,最终形成闭环.比如A依赖于B,B依赖于C,C又依赖于A.如下图: 如何理解“依赖”呢,在Spring中有: 构造器循 ...
- 如何用纯 CSS 创作出平滑的层叠海浪特效
效果预览 在线演示 按下右侧的"点击预览"按钮可以在当前页面预览,点击链接可以全屏预览. https://codepen.io/comehope/pen/JvmBdE 可交互视频教 ...
- Web前端开发HTML基础
HTML是英文Hyper Text Mark-up Language(超文本标记语言)的缩写,他是一种制作万维网页面标准语言(标记),相当于定义统一的一套规则,大家都来遵守他,这样就可以让浏览器根据标 ...
- SpringBoot上传文件,经过spingCloud-Zuul,中文文件名乱码解决办法
最近用springCloud整合springboot做分布式服务发现经过zuul之后上传的中文文件名乱码全都变成?????,从而引发异常,单独用springboot却是好的,在网上找到相关资料总结如下 ...
- asp.net core在发布时排除配置文件
使用命令发布 dotnet restore dotnet publish -c Release -r win-x64 -o "D:\services" 这样发布总是是将配置文件覆盖 ...
- C# 面向对象5 this关键字和析构函数
this关键字 1.代表当前类的对象 2.在类当中显示的调用本类的构造函数(避免代码的冗余) 语法: ":this" 以下一个参数的构造函数调用了参数最全的构造函数!并赋值了那些不 ...
- HDFS NFS Gateway
NFS网关支持NFSv3,并允许将HDFS作为客户端本地文件系统进行挂载.目前,NFS Gateway支持并启用以下使用模式: 用户可以通过NFSv3客户端兼容操作系统上的本地文件系统浏览HDFS文件 ...
- JS代码格式化
JS代码格式化也就是规范化,保留必要的换行和缩进使代码阅读起来更容易.团队协同工作时会有相应的标准,大家要保证统一的代码风格,这样在合并代码的时候才不容易出问题.通过快捷键Ctrl+Shift+F进行 ...