LDA提取信息

文本主题模型提取

如下程序将句子主题提取后，将权重值存入dataframe.

#!/usr/bin/python

# -*- coding:utf-8 -*-

import pandas as pd

import numpy as np

import matplotlib as mpl

import math

import warnings

import jieba

from gensim import corpora, models, similarities

# 参数说明：

# doc_topics: 可用np.array(doc_topics)

# 对其进行查看，

# 它里面存储的是每个句子对应的list, list中分别是句子中部分词的标号和权重值，

# x:表示的是单个句子在dataframe的index

# num_show_topic：LdaMulticore提取的主题的个数

# col：是列名

def getlda(doc_topics, x, num_show_topic, col):

    # topic是doc_topics中list的内容变成了二阶张量的形式

    topic = np.array(doc_topics[x])

    # topic[:,1]中是某个句子中部分词的权重值

    # argsort函数返回的是数组值从小到大的索引值,即np.argsort(topic[:,1])中是list中所有的权重值由小到大排序后的索引

    # topic_id中是topic按权重值排序后生成的二维张量

    topic_id=topic[np.argsort(topic[:,1])]

    # 如果该句子主题个数不够LdaMulticore提取的个数，则对缺少的部分补0

    if topic_id.shape[0]<num_show_topic:

        settopici=set(topic_id[:,0])

        settopicadd=set([x for x in range(num_show_topic)])-settopici# 补上没出现的topic

        dfall=pd.concat([pd.DataFrame({0:list(settopicadd),1:[0 for x in range(len(settopicadd))]}),pd.DataFrame(topic_id)],axis=0)

    # 否则说明该句子中的主题个数与LdaMulticore中规定的一致，

    else:

        dfall=pd.DataFrame(topic_id)

        # print(dfall)

    # 对第一列进行排序,即按主题进行排序   共num_show_topic个主题

    dfall.sort_values(0,inplace=True)

    # 将dfall中的权重值列转化为dataframe,变为1行num_show_topic列

    df =pd.DataFrame([dfall[1].values])

    df=df.astype(np.float32)

    # 生成num_show_topic个列

    L = range(num_show_topic)

    df.columns = [col + 'lda' + str(i) for i in L]

    # 将最终生成的1行num_show_topic列的dataframe返回

    return df

def fenge(x):

    x = x.split('|')

    # print('x中不同元素共有：', len(set(x)))

    return x

df = pd.DataFrame({

                   'user_id': [113401,378358,434838,577061],

                   'taglist': [

                               '4707|70|3498|4707|2099|1832|1911',

                               '751|2207|1100|2099|1832|1911|70|2254|171',

                               '877|3242|5628|70|2684|691|70|4228|631|70',

                               '2431|3242|3242|1823|4020|3242|70|620|2168'

                               ]

                  })

# r的数据类型是series，key是df的index，values是分割‘|’后返回的list

r = df['taglist'].map(lambda x: fenge(x))

# testdata是list，每个元素也是list

testdata = list(r)

# dictionary中是将testdata中所有不同的标记tokens都取了出来放在一个list中

dictionary = corpora.Dictionary(testdata)

# corpus中存放的是testdata中每个元素在dictionary中的编号与出现次数

# corpus中的数据形式是[[(0, 1), (1, 1), (2, 1)], [(0, 1), (1, 1), (2, 1), (5, 1), (6, 1)],.......

corpus = [dictionary.doc2bow(text) for text in testdata]

# 输出tfidf是TfidfModel(num_docs=4,num_nnz=31)，其中num_docs表示的是处理了4个语句，num_nnz表示的是4个语句中共有31个不同的词

tfidf = models.TfidfModel(corpus)

# 此处计算得出语料库corpus中所有句子的tf-idf值，这儿放其他的语料库可能也行

corpus_tfidf = tfidf[corpus]

# LdaMulticore()参数解析官网链接：https://radimrehurek.com/gensim/models/ldamulticore.html

# 参数解释：corpus_tfidf:要训练的语料库

#         num_topics:指定从要训练的语料库中要提取的主题数量

#         id2word:与语料库对应的字典

#         chunksize:每次训练的词的数量

#         passes:训练中通过语料库的次数，即训练的次数

#         minimum_probability:设置阈值，低于该阈值的主题将被舍弃掉

#         workers:设置进程数，即用于并行化的工作进程的数量

#         decay:一个介于(0.5,1)之间的数字，以表示在检查每个新文档时忘记前面lambda值的百分比

# https://radimrehurek.com/gensim/models/ldamulticore.html

lda = models.LdaMulticore(corpus_tfidf, num_topics=60, id2word=dictionary,chunksize=2000,

                          passes=1, random_state=0, minimum_probability=0.005, workers=11)

# print('lda is:', lda) # lda is: LdaModel(num_terms=23, num_topics=60, decay=0.5, chunksize=2000)

# 保存模型

# lda.save('./model/' + 'lad.model')  # 留给test集合用

# doc_topics直接输出看不到内部的值

doc_topics = lda.get_document_topics(corpus_tfidf)

print(np.array(doc_topics))

# # 显示文档主题doc_topics有3种方法：

# doc_topic = [i for i in lda[corpus_tfidf]]               ##法1

# print(doc_topic)

#

# for doc_topic in lda.get_document_topics(corpus_tfidf):  ##法2

#     print(doc_topic)

# print(np.array(doc_topics))                              ##法3

item = 'taglist'   # 列名

# [print(cols) for cols in df.reset_index()['index'].apply(lambda x: getlda(doc_topics, x, 60, item))]

# df.reset_index()['index'].apply(lambda x: getlda(doc_topics, x, 60, item))

# 是series类型，其中每个values都是返回的dataframe,1行num_show_topic列

dfjoin = pd.concat([cols for cols in

                    df.reset_index()['index'].apply(lambda x: getlda(doc_topics, x, 60, item))],

                   ignore_index=True)

print(dfjoin.shape)  #(4, 60)

https://blog.csdn.net/sinat_26917383/article/details/71436563#gensimdoc2bow_209

https://radimrehurek.com/gensim/models/ldamulticore.html

https://blog.csdn.net/appleyuchi/article/details/78055371

https://blog.csdn.net/qq_23926575/article/details/79429689

https://radimrehurek.com/gensim/tut1.html#from-strings-to-vectors

http://www.pianshen.com/article/6714154086/

LDA提取信息的更多相关文章

Python 抓取网页并提取信息(程序详解)
最近因项目需要用到python处理网页,因此学习相关知识.下面程序使用python抓取网页并提取信息,具体内容如下: #---------------------------------------- ...
在excel单元格中提取信息
平时在excel中处理数据的时候,肯定会遇到在单元格提取信息的情况,比如在地址中提取省.市.地区等,如果数据源内容规整的话,可以直接使用left().right().mid()等函数直接提取,但是大多 ...
Excel不同工作簿之间提取信息
Sub 不同工作簿间提取信息() '用于单个字段信息的提取: Dim w As Workbook, wb1 As Workbook, wb2 As Workbook, wb3 As Workbook ...
用python库openpyxl操作excel,从源excel表中提取信息复制到目标excel表中
现代生活中,我们很难不与excel表打交道,excel表有着易学易用的优点,只是当表中数据量很大,我们又需要从其他表册中复制粘贴一些数据(比如身份证号)的时候,我们会越来越倦怠,毕竟我们不是机器,没法 ...
Jmeter- 笔记5 - 从响应数据提取信息
JSON提取器提取响应体(response body)里的信息在需要提取数据的请求下添加 JSON提取器,一个JSON提取器可以写多个json提取器路径:后置处理器 -> JSON提取器 ...
python读取excel一例-------从工资表逐行提取信息
在工作中经常要用到python操作excel,比如笔者公司中一个人事MM在发工资单的时候,需要从几百行的excel表中逐条的粘出信息,然后逐个的发送到员工的邮箱中.人事MM对此事不胜其烦,终于在某天请 ...
从PDF中提取信息----PDFMiner
今天由于某种原因需要将pdf中的文本提取出来,就去搜了下资料,发现PDFMiner是针对内容提取的,虽然最后发现pdf里面的文本全都是图片,就没整成功,不过试了个文本可复制的那种pdf文件,发现还 ...
EXCEL跨工作薄查找。提取信息
=IF(ISERROR(INDEX(zdy!$B:$B,MATCH(B15,zdy!$B:$B,0))),"不存在",INDEX(zdy!$C:$C,MATCH(B15,zdy!$ ...
【Python学习笔记四】获取html内容之后，如何提取信息：使用正则表达式筛选
在能够获取到网页内容之后,发现内容很多,那么下一步要做信息的筛选,就和之前的筛选图片那样而在python中可以通过正则表达式去筛选自己想要的数据 1.首先分析页面内容信息,确定正则表达式.例如想获取 ...

随机推荐

SpringAOP用到了什么代理，以及动态代理与静态代理的区别
spring aop (面向切面)常用于数据库事务中,使用了2种代理. jdk动态代理:对实现了接口的类生成代理对象.要使用jdk动态代理,要求类必须要实现接口. cglib代理:对类生成代理对象. ...
Laravel 学习笔记之数据库操作——Eloquent ORM
1. 时间戳默认情况下在使用ORM操作数据库进行添加.修改数据时, created_at 和 updated_at列会自动存在于数据表中,并显示的是 ‘2017’格式,如果想以 Unix时间戳格式存 ...
IBM公司面试题
进入IBM差不多是每一个IT人的梦想.IBM公司向来以高素质人才作为企业持续竞争力的保证,所以经常出一些千奇百怪的面试题,来考验一个人的综合能力,以下是5道IBM曾经出过的面试题,看看你能作出几道: ...
前端开发HTML&css入门——一些其他常用的文本标签
em标签和strong标签 i标签和b标签 small标签 cite标签 q标签和blockquote标签 em主要表示语气上的强调,em在浏览器中默认使用斜体显示strong表示强调的内容,比em更 ...
[七月挑选]树莓派Raspberrypi上配置Git
title: 树莓派Raspberrypi上配置Git 树莓派Raspberrypi上配置Git. 开始首先你得有一树莓派!!! 过程查看自己树莓派的版本 pi@raspberrypi:~ $ u ...
16.Linux-CentOS系统进入单用户模式修改root用户密码操作
问题描述: root用户密码忘记,进入单用户重置root用户密码解决步骤: 1.重启服务器,在系统显示内核版本界面后“按E键”,进入内核启动项2.找到Linux16这一行段,将“ro”修改成“rw” ...
Docker学习笔记--传送门(持续更新)
1.ubuntu下安装docker: https://www.cnblogs.com/salmonLeeson/p/11609699.html 2.为docker配置国内镜像加速器:https:// ...
Codeforces Round #430 (Div. 2) - D
题目链接:http://codeforces.com/contest/842/problem/D 题意:定义Mex为一个序列中最小的未出现的正整数,给定一个长度为n的序列,然后有m个询问,每个询问给定 ...
GUI学习之二十三——QComboBox学习总结
我们在前面分别介绍了两种输入控件:纯键盘文本输入和步长调节器,下面我们来学习下组合框(下拉选择输入). 一.简介 1.下拉框是一个组合控件(包含一个文本显示控件和一个按钮).它默认显示最小的控件给用户 ...
adam优化
AdaGrad (Adaptive Gradient,自适应梯度) 对每个不同的参数调整不同的学习率, 对频繁变化的参数以更小的步长进行更新,而稀疏的参数以更大的步长进行更新. gt表示第t时间步的梯 ...

LDA提取信息

LDA提取信息的更多相关文章

随机推荐

热门专题