NLP（十）主题识别

原文链接：http://www.one2know.cn/nlp10/

主题识别

是发现输入文本集合中存在的主题的过程

LDA算法，即狄利克雷分布算法

from nltk.tokenize import RegexpTokenizer

from nltk.corpus import stopwords

from gensim import corpora,models

import feedparser

class IdentifyingTopicExample:

    def getDocuments(self): # 获取文档 放到documents中

        url = 'https://sports.yahoo.com/mlb/rss.xml'

        feed = feedparser.parse(url)

        self.documents = []

        for entry in feed['entries'][:5]:

            text = entry['summary']

            if 'ex' in text:

                continue

            self.documents.append(text)

            print('-- {}'.format(text))

        print('INFO: Fetching documents from {} completed'.format(url))

    def cleanDocuments(self):

        tokenizer = RegexpTokenizer(r'[a-zA-Z]+') # 想要只处理字母9

        en_stop = set(stopwords.words('english')) # 英文停用词放到en_stop中

        self.cleaned = [] # 用于存储所有被清洗且分词后的文档

        for doc in self.documents:

            lowercase_doc = doc.lower() # 字母都变小写

            words = tokenizer.tokenize(lowercase_doc) # 分词

            non_stopped_words = [i for i in words if not i in en_stop] # 过滤掉停用词

            self.cleaned.append(non_stopped_words) # cleaned 二维列表

        print('INFO: Clearning {} documents completed'.format(len(self.documents)))

    def doLDA(self):

        dictionary = corpora.Dictionary(self.cleaned) # 创建字典

        corpus = [dictionary.doc2bow(cleandoc) for cleandoc in self.cleaned]

        # 由每个清洗后的句子，以词袋形式定义corpus变量

        ldamodel = models.ldamodel.LdaModel(corpus,num_topics=2,id2word=dictionary)

        # 在corpus上创建一个模型，主题数量设为2，id2word设置词典的大小/映射情况

        print(ldamodel.print_topics(num_topics=2,num_words=4)) # 打印主题 每个主题含4个单词

    def run(self):

        self.getDocuments()

        self.cleanDocuments()

        self.doLDA()

if __name__ == "__main__":

    topicExample = IdentifyingTopicExample()

    topicExample.run()

输出：

-- MLB Network documentary shines spotlight on 1995 Mariners team that saved baseball in Seattle.

-- Marcus Semien's second big swing of the day finally gave the Oakland Athletics some breathing room in an oh-so-tight series with the AL Central-leading Twins.  Semien hit a grand slam in the eighth inning after his tying homer leading off the fifth, Chris Herrmann had a career-high four hits, and

-- It wasn't long until Cleveland took advantage of it.  Francisco Lindor drove in the go-ahead runs during a six-run seventh inning, Jose Ramirez homered twice and Carlos Santana pushed his on-base streak to 27 games as the Indians rallied to beat bumbling Kansas City 8-4 on Thursday and complete a

-- A look at what's happening around the majors Friday:

INFO: Fetching documents from https://sports.yahoo.com/mlb/rss.xml completed

INFO: Clearning 4 documents completed

[(0, '0.022*"look" + 0.022*"friday" + 0.022*"around" + 0.022*"majors"'), (1, '0.023*"leading" + 0.023*"semien" + 0.022*"inning" + 0.014*"homer"')]

NLP（十）主题识别的更多相关文章

【NLP】主题识别文档
http://www.biostatistic.net/thread-94974-1-1.html http://www.doc88.com/p-9843685205530.html http://w ...
NLP十大里程碑
NLP十大里程碑 2.1 里程碑一:1985复杂特征集复杂特征集(complex feature set)又叫做多重属性(multiple features)描写.语言学里,这种描写方法最早出现在语 ...
算法工程师进化-NLP之主题模型
1 引言主题模型是文本挖掘的重要工具,近年来在学术界和工业届都获得了非常多的关注.学术界的工作主要集中在建模层面,即提出各种各样的主题模型来适应不同的场景,因此缺乏指导主题模型在工业场景落地的资源和 ...
『深度应用』NLP命名实体识别(NER)开源实战教程
近几年来,基于神经网络的深度学习方法在计算机视觉.语音识别等领域取得了巨大成功,另外在自然语言处理领域也取得了不少进展.在NLP的关键性基础任务—命名实体识别(Named Entity Recogni ...
NLP︱LDA主题模型的应用难题、使用心得及从多元统计角度剖析
将LDA跟多元统计分析结合起来看,那么LDA中的主题就像词主成分,其把主成分-样本之间的关系说清楚了.多元学的时候聚类分为Q型聚类.R型聚类以及主成分分析.R型聚类.主成分分析针对变量,Q型聚类针对样 ...
写给程序员的机器学习入门 (十) - 对象识别 Faster-RCNN - 识别人脸位置与是否戴口罩
每次看到大数据人脸识别抓逃犯的新闻我都会感叹技术发展的太快了,国家治安水平也越来越好了
【NLP】Python实例：申报项目查重系统设计与实现
Python实例:申报项目查重系统设计与实现作者:白宁超 2017年5月18日17:51:37 摘要:关于查重系统很多人并不陌生,无论本科还是硕博毕业都不可避免涉及论文查重问题,这也对学术不正之风起 ...
【NLP】Python实例：基于文本相似度对申报项目进行查重设计
Python实例:申报项目查重系统设计与实现作者:白宁超 2017年5月18日17:51:37 摘要:关于查重系统很多人并不陌生,无论本科还是硕博毕业都不可避免涉及论文查重问题,这也对学术不正之风起 ...
自然语言处理(NLP)
苹果语音助手Siri的工作流程: 听懂思考组织语言回答这其中每一步骤涉及的流程为: 语音识别自然语言处理 - 语义分析逻辑分析 - 结合业务场景与上下文自然语言处理 - 分析结果生成自 ...

随机推荐

Docker 安装部署Sql Server
前言在如今,容器化概念越来越盛行,.Net Core项目也可以跨平台部署了,那么思考下Sql Server能不能呢?当然是可以的啦.本文今天就是介绍Docker部署配置和连接Sql Server.本 ...
洛谷 P5150 题解
题面因为 n=lcm(a,b)n = lcm(a, b)n=lcm(a,b) ,可以得出: a 和 b 的质因数都是 n 的质因数对于 n 的每个质因数 x ,在 n 中的次数为 y ,那么 ...
Python实现批量处理扫描特定目录
## 简述在渗透测试中遇到相同CMS站点时,搞定一个站点,相当于拿了一个站群的通用漏洞,所以我们首先需要标注站点的CMS类型,根据要求编写如下脚本 ## 要求1.访问特定目录,如:站点特定 /cmsa ...
html以前没有学到的标签
<q>标签,短文本引用 <blockquote>标签,长文本引用 <address>标签,为网页加入地址信息 <code>标签,插入单行代码 <p ...
自定义itemClickView
极力推荐文章:欢迎收藏 Android 干货分享阅读五分钟,每日十点,和您一起终身学习,这里是程序员Android 本篇文章主要介绍 Android 开发中的部分知识点,通过阅读本篇文章,您将收获以 ...
先定一个小目标：10天自学C语言编程，教你如何改变一生
C语言是面向过程的,而C++是面向对象的 C和C++的区别: C是一个结构化语言,它的重点在于算法和数据结构.C程序的设计首要考虑的是如何通过一个过程,对输入(或环境条件)进行运算处理得到输出(或实现 ...
MyBatis 二级缓存全详解
目录 MyBatis 二级缓存介绍二级缓存开启条件探究二级缓存二级缓存失效的条件第一次SqlSession 未提交更新对二级缓存影响探究多表操作对二级缓存的影响二级缓存源码解析二级缓存 ...
java并发编程（三）----线程的同步
在现实开发中,我们或多或少的都经历过这样的情景:某一个变量被多个用户并发式的访问并修改,如何保证该变量在并发过程中对每一个用户的正确性呢?今天我们来聊聊线程同步的概念. 一般来说,程序并行化是为了获得 ...
每天用SpringBoot，还不懂RESTful API返回统一数据格式是怎么实现的？
上一篇文章RESTful API 返回统一JSON数据格式说明了 RESTful API 统一返回数据格式问题,这是请求一切正常的情形,这篇文章将说明如何统一处理异常,以及其背后的实现原理,老套路, ...
AOSP 预置 APP
Android 系统预置 APP 是做 Framework 应用开发经常经常会遇到的工作,预置 APP 分为两种,一种是直接预置 APK,一种是预置带有源码的 APP. 预置 apk 示例说明以 . ...

NLP（十） 主题识别

NLP（十） 主题识别的更多相关文章

随机推荐

热门专题

NLP（十）主题识别

NLP（十）主题识别的更多相关文章