LDA模型数据的可视化

 """

     执行lda2vec.ipnb中的代码

     模型LDA

     功能：训练好后模型数据的可视化

 """

 from lda2vec import preprocess, Corpus

 import matplotlib.pyplot as plt

 import numpy as np

 # %matplotlib inline

 import pyLDAvis

 try:

     import seaborn

 except:

     pass

 # 加载训练好的主题-文档模型，这里是查看数据使用。这里需要搞清楚数据的形式，还要去回看这个文件是怎么构成的

 npz = np.load(open('D:/my_AI/lda2vec-master/examples/twenty_newsgroups/lda2vec/topics.pyldavis.npz', 'rb'))

 # 数据

 dat = {k: v for (k, v) in npz.iteritems()}

 # 词汇表变成list

 dat['vocab'] = dat['vocab'].tolist()

 #####################################

 ##  主题-词汇

 #####################################

 # 主题个数为10

 top_n = 10

 # 主题对应10个最相关的词

 topic_to_topwords = {}

 for j, topic_to_word in enumerate(dat['topic_term_dists']):

     top = np.argsort(topic_to_word)[::-1][:top_n]               # 概率从大到小的下标索引值

     msg = 'Topic %i '  % j

     # 通过list的下标获取关键词

     top_words = [dat['vocab'][i].strip()[:35] for i in top]

     # 数据拼接

     msg += ' '.join(top_words)

     print(msg)

     # 将数据保存到字典里面

     topic_to_topwords[j] = top_words

 import warnings

 warnings.filterwarnings('ignore')

 prepared_data = pyLDAvis.prepare(dat['topic_term_dists'], dat['doc_topic_dists'],

                                  dat['doc_lengths'] * 1.0, dat['vocab'], dat['term_frequency'] * 1.0, mds='tsne')

 from sklearn.datasets import fetch_20newsgroups

 remove=('headers', 'footers', 'quotes')

 texts = fetch_20newsgroups(subset='train', remove=remove).data

 ##############################################

 ##  选取一篇文章，确定该文章有哪些主题

 ##############################################

 print(texts[1])

 tt = dat['doc_topic_dists'][1]

 msg = "{weight:02d}% in topic {topic_id:02d} which has top words {text:s}"

 # 遍历这20个主题，观察一下它的权重，权重符合的跳出来

 for topic_id, weight in enumerate(dat['doc_topic_dists'][1]):

     if weight > 0.01:

         # 权重符合要求，那么输出该主题下的关联词汇

         text = ', '.join(topic_to_topwords[topic_id])

         print (msg.format(topic_id=topic_id, weight=int(weight * 100.0), text=text))

 # plt.bar(np.arange(20), dat['doc_topic_dists'][1])

 print(texts[51])

 tt = texts[51]

 msg = "{weight:02d}% in topic {topic_id:02d} which has top words {text:s}"

 for topic_id, weight in enumerate(dat['doc_topic_dists'][51]):

     if weight > 0.01:

         text = ', '.join(topic_to_topwords[topic_id])

         print(msg.format(topic_id=topic_id, weight=int(weight * 100.0), text=text))

 # plt.bar(np.arange(20), dat['doc_topic_dists'][51])

LDA模型数据的可视化的更多相关文章

基于 HTML5 的 WebGL 和 VR 技术的 3D 机房数据中心可视化
前言在 3D 机房数据中心可视化应用中,随着视频监控联网系统的不断普及和发展, 网络摄像机更多的应用于监控系统中,尤其是高清时代的来临,更加快了网络摄像机的发展和应用. 在监控摄像机数量的不断庞大的 ...
LDA模型了解及相关知识
什么是LDA? LDA是基于贝叶斯模型的,涉及到贝叶斯模型离不开“先验分布”,“数据(似然)”和"后验分布"三块.贝叶斯相关知识:先验分布 + 数据(似然)= 后验分布. 贝叶斯模 ...
文本主题抽取：用gensim训练LDA模型
得知李航老师的<统计学习方法>出了第二版,我第一时间就买了.看了这本书的目录,非常高兴,好家伙,居然把主题模型都写了,还有pagerank.一路看到了马尔科夫蒙特卡罗方法和LDA主题模型这 ...
B/S 端基于 HTML5 + WebGL 的 VR 3D 机房数据中心可视化
前言在 3D 机房数据中心可视化应用中,随着视频监控联网系统的不断普及和发展, 网络摄像机更多的应用于监控系统中,尤其是高清时代的来临,更加快了网络摄像机的发展和应用. 在监控摄像机数量的不断庞大的 ...
BFM模型介绍及可视化实现（C++）
BFM模型介绍及可视化实现(C++) BFM模型基本介绍 Basel Face Model是一个开源的人脸数据库,其基本原理是3DMM,因此其便是在PCA的基础上进行存储的. 目前有两个版本的数据库( ...
基于 HTML5 WebGL 和 VR 技术的 3D 机房数据中心可视化
前言在 3D 机房数据中心可视化应用中,随着视频监控联网系统的不断普及和发展, 网络摄像机更多的应用于监控系统中,尤其是高清时代的来临,更加快了网络摄像机的发展和应用. 在监控摄像机数量的不断庞大的 ...
基于 HTML5 WebGL + VR 的 3D 机房数据中心可视化
前言在 3D 机房数据中心可视化应用中,随着视频监控联网系统的不断普及和发展, 网络摄像机更多的应用于监控系统中,尤其是高清时代的来临,更加快了网络摄像机的发展和应用. 在监控摄像机数量的不断庞大的 ...
【转载 | 翻译】Visualizing A Neural Machine Translation Model（神经机器翻译模型NMT的可视化）
转载并翻译Jay Alammar的一篇博文:Visualizing A Neural Machine Translation Model (Mechanics of Seq2seq Models Wi ...
【Model Log】模型评估指标可视化，自动画Loss、Accuracy曲线图工具，无需人工参与!
1. Model Log 介绍 Model Log 是一款基于 Python3 的轻量级机器学习(Machine Learning).深度学习(Deep Learning)模型训练评估指标可视化工具, ...

随机推荐

underscore.js定义模板遇到问题：Uncaught TypeError: Cannot read property 'replace' of undefined
代码正确缩进位置如下, extend "layout" block 'content',-> div ->'nihao' script id:"Invoice ...
DDMS调试信息
1.可以使用System.out.println() 2.android.util包下的Log类该类可以将信息以日志的形式输出到LogCat中: import android.util.Log; S ...
如何构建日均千万PV Web站点 (一)
其实大多数互联网网站起初的网站架构都是(Linux+Apache+MySQL+PHP). 不过随着时代的发展,科技的进步.互联网进入寻常百姓家的生活.所谓的用户的需求,铸就了一个个互联网大牛: htt ...
PC 商城扫描二维码登录
需求分析: 扫码入口,在pc登录首页新增二维码登录入口点击扫码入口显示二维码二维码有效时间为一分钟超时后显示二维码失效,点击刷新后生成新的二维码在app端用户登录并扫码后,点击确认登录,进行跳 ...
机器学习算法--GBDT
转自 http://blog.csdn.net/u014568921/article/details/49383379 另外一个很容易理解的文章 :http://www.jianshu.com/p/0 ...
Github for Windows 登录时报代理问题？
Github for Windows 登录时报如下错误: 不要被它的提示信息误导了. 登录失败,跟代理半毛钱关系都没有. 是 .net framework 组件的问题. 更新下 .net frame ...
流程图 --- BPMN规范简介
BPMN 目前是2.0规范 http://www.bpmn.org/ BPMN Quick Guide http://blog.csdn.net/flygoa/article/details/5 ...
gradle-4.1-all.zip
1. https://services.gradle.org/distributions/ https://services.gradle.org/distributions/gradle-4.1-a ...
LeetCode 16 3Sum Closest （最接近target的3个数之和）
题目链接 https://leetcode.com/problems/3sum-closest/?tab=Description Problem : 找到给定数组中a+b+c 最接近targe ...
css笔记——文本样式
聊聊text-decoration.text-indent.text-transform.letter-spacing.word-spacing.vertical-align.下面是一些常用设置文本样 ...

LDA模型数据的可视化

LDA模型数据的可视化的更多相关文章

随机推荐

热门专题