LDA 初见(JGibbLDA-v.1.0 eclipse使用)
一、下载和初次使用JGibbLDA
1、导入JGibbLDA-v.1.0项目(参考上面链接)
2、在LDA.java右键“run”--->“run configurations”填入
-est -dir models/casestudy-en/ -alpha 0.5 -beta 0.1 -ntopics 100 -niters 1000 -savestep 100 -twords 20 -dfile newdocs.dat
-est -dir models/hanz/ -alpha 0.5 -beta 0.1 -ntopics 100 -niters 1000 -savestep 100 -twords 20 -dfile newdocs.dat
-est 表示进行模型估计;另外还有两个可选的为-estc继续估计;还有一个-inf为利用训练好的模型来估计新文档。
-alpha 0.5 -beta 0.1
这个两个参数涉及了很多看了就头大的公式,直观上比较好理解的引用梁斌penny的说法“其中α,大家可以调大调小了试试看,调大了的结果是每个文档接近同一个topic,即让p(wi|topici)发挥的作用小,这样p(di|topici)发挥的作用就大。其中的β,调大的结 果是让p(di|topici)发挥的作用变下,而让p(wi|topici)发挥的作用变大,体现在每个topic更集中在几个词汇上面,或者而每个词汇都尽可能的百分百概率转移到一个topic上。”
就我个人而言,因为不知道怎么用。所以一直都是选用的0.5和0.1这两个。
GibbsLDA++的文档中说明了alpha默认使用topic数目除以100.
-niters 2000 迭代次数,一般需要1000次以上才能收敛,达到较好的效果。
LDA [options ...] [arguments...]
-alpha N : Specify alpha
-beta N : Specify beta
-dfile VAL : Specify data file
-dir VAL : Specify directory
-est : Specify whether we want to estimate model from scratch /×-est 此参数初次训练lda模型;
-estc : Specify whether we want to continue the last estimation -estc:此参数用于从已有的模型当中训练lda模型;
-inf : Specify whether we want to do inference -inf: 此参数用于对新的文档进行测试;×/
-model VAL : Specify the model name
-niters N : Specify the number of iterations
-ntopics N : Specify the number of topics
-savestep N : Specify the number of steps to save the model since the last save
-twords N : Specify the number of most likely words to be printed for each topic
-withrawdata : Specify whether we include raw data in the input
-wordmap VAL : Specify the wordmap file
参考:http://blog.csdn.net/memray/article/details/16810763
http://blog.csdn.net/huagong_adu/article/details/7937616
二、JGibbLDA的参数基本上有下面几个:
从上图可以看出,LDA的三个表示层被三种颜色表示出来: . corpus-level(红色):α和β表示语料级别的参数,也就是每个文档都一样,因此生成过程只采样一次。 .document-level(橙色):θ是文档级别的变量,每个文档对应一个θ,也就是每个文档产生各个主题z的概率是不同的,所有生成每个文档采样一次θ。 . word-level(绿色):z和w都是单词级别变量,z由θ生成,w由z和β共同生成,一个 单词w对应一个主题z。 通过上面对LDA生成模型的讨论,可以知道LDA模型主要是从给定的输入语料中学习训练两个控制参数α和β,学习出了这两个控制参数就确定了模型,便可以用来生成文档。其中α和β分别对应以下各个信息: α:分布p(θ)需要一个向量参数,即Dirichlet分布的参数,用于生成一个主题θ向量; β:各个主题对应的单词概率分布矩阵p(w|z)。 把w当做观察变量,θ和z当做隐藏变量,就可以通过EM算法学习出α和β,求解过程中遇到后验概率p(θ,z|w)无法直接求解,需要找一个似然函数下界来近似求解,原文使用基于分解(factorization)假设的变分法(varialtional inference)进行计算,用到了EM算法。每次E-step输入α和β,计算似然函数,M-step最大化这个似然函数,算出α和β,不断迭代直到收敛。
- #-est 此参数初次训练lda模型;
- #-estc:此参数用于从已有的模型当中训练lda模型;
- #-inf: 此参数用于对新的文档进行测试;
- #-model <string>: 已有的模型的名称;
- #-alpha<double>:α超参数,默认是50/k,k为主题数量;
- #-beta <double>: β超参数,默认为0.1;
- #-ntopics <int>: 主题数量,默认100;
- #-niters <int>: gibbs抽样迭代次数,默认为2000;
- #-savestep <int>: 保持模型的迭代次数,即每迭代多少次将保持一次结果模型。默认为200;
- # -tword s <int>: 每个主题最可能的单车数量。默认为0,如果设定大于0,比如20,jgibblda将会根据此参数在每次保持模型时为每个主题打印出最可能的20个词;
- #-dir <string>: 输入词集文件夹目录;此目录也是模型结果输出目录
- # -dfile <string>: 输入词集文件名称
参数说明和设置
//Specify whether we want to estimate modelfrom scratch
boolean est= false; /////是否开始训练模型
//Specify whether we want to continue thelast estimation
决定是否是基于先前已有的模型基础上继续用新数据训练模型
boolean estc= false;
//Specify whether we want to do inference
boolean inf= true; /////是否使用先前已经训练好的模型进行推断
String dir= ""; //Specify directory ////数据结果(模型数据)保存位置
String dfile= ""; //Specify resource data filename /////训练数据或原始数据文件名
//Specify the model level to which you wantto applied. ///
String modelName= ""; ////选择使用哪一个迭代的模型结果来进行推断
int K= 100; //Specify the number of topics /////类簇数目,谨慎设置
double alpha= 0.2; //Specify alpha //////平滑系数
double beta= 0.1; //Specify beta
int niters= 1000; //Specify the number of iterations /////迭代数目,谨慎设置
//Specify the number of steps to save themodel since the last save.
//The step (counted by the number ofGibbssampling iterations)
//at which the LDA model is saved to harddisk.
//指定把迭代结果模型保存到硬盘上的迭代跨度,即每迭代10次保存一次。
int savestep= 100;
//Specify the number of most likely wordsto be printed for each topic
int twords= 100; /////对每一个类别(话题)选前多少个最大概率词项
//Specify whether we include raw data in theinput
public boolean withrawdata= false;
//Specify thewordmapfile
publicString wordMapFileName= "wordmap.txt"; /////生成的副产品的文件名
三、输入词集格式
一般如下
[m]
[document1]
[document2]
...
[documentm]
其中:
第一行为该数据文件有多少条记录数。然后每一行记录按行排列。
这里的“记录”的格式又规定为:
[documenti]= [wordi1] [wordi2] ... [wordiNi]
其中:[wordiNi]为[documenti]的各个词项,以空格分隔。
众所周知,对词项集合进行预处理,如去除停用词、主干提取等,对结果精度的提升有较大帮助。
在基于所属宝贝属性序列的用户聚类中,预处理这一步可以省略。因为提取属性序列的主干是一件较为困难的事。
四、输出数据
建立模型阶段,会输出5类以如下规则命名的文件类型:
model-xxxxx.others:
model-xxxxx.phi
model-xxxxx.theta
model-xxxxx.tassign
model-xxxxx.tword s
xxxxx都以数字组成。最后一次迭代所保存的这些数字将会换成“final”。
其中:
- .others为“信息文件”。文件保存的是跟该LDA模型有关的参数,比如alpha,beta,ntopiccs,ndocs,nwords,liter(the Gibbssampling iteration at which the model was saved)
- .phi文件为“词项-主题概率分布文件”。表现上是一个大矩阵M。其中,假设设类簇的数目topict为1000个,每一个主题需要列出top 100个词项wordw,则M以100为行,1000为列。即M每一行是词项,每一列是主题。M元素值则为条件概率p(wordw|topict),即每个词属于每个主题的概率。
0.007328 0.000014 0.000014 0.001421 0.000014 0.000014 ……
0.000293 0.001132 0.000154 0.000293 0.000293 0.000154……(节选部分矩阵,实际上这个矩阵很大)
代表两个主题,wordmap中编号为0的词语对主题0贡献了0.007328,对主题1贡献了0.000293。
- .theta文件为“文档-主题概率分布文件”。表现上也是一个大矩阵M。每行i代表训练数据的一个文档,每一列代表一个主题,元素值则为条件概率 p(topict|documentm),即该文档属于不同主题的概率。
- .tassign文件为“文档-词项-主题分布文件”。该文件与输入文件的格式一致,一行一个文档,只不过原来的输入文件中的词项换成了一个一个“词项ID:类别”。文件每一行代表训练数据的一条文档,原文档由一组词项组成,现每一行为原来的记录词项指派了其最大可能的所属主题。注意,该文档所属主题分布是在theta文件中,并未在tassign文件中指明。
表示了该文档中每个词语与其匹配的主题。
836:26 837:29 1087:12 200:12 1241:3 450:26 1242:26 1172:12 910:12 4:22 5:22 6:22 1243:22 1117:26 852:26
此行表示一个输入文档有在wordmap中标号为836,837,1087等的词语组成,这些词语分别被分配给了主题26,29,12
- .twords文件为“词项-主题推断文件”。这个文件作为模型参数结果推断出了每一个主题下最优的topN个词项及其概率。请注意这里的主题数和N都是事先指定的。
这5个文件包括副产品wordmap.txt在有些应用场景下有时并不是完全需要的,是否生成可视情况而定。如果利用主题下topN词项来做基于距离的聚类,可能只需.twords即可。
关键代码:初始化一个模型:
LDACmdOptionldaOption = new LDACmdOption();
ldaOption.inf =true;
ldaOption.dir ="C:\\LDAModelDir";
ldaOption.modelName= "newdocs";
ldaOption.niters =100;
推断新数据:
Inferencerinferencer = new Inferencer();
inferencer.init(option);
ldaOption.dfile= "input-lda-data.txt";
Model newModel =inferencer.inference();
数据也可以是词项的一组数组:
String[] test = {"politics bill clinton", "lawcourt", "football match"};
Model newModel =inferencer.inference(test);
propertyutils.java读取配置文件src/option.properties
转自:http://blog.csdn.net/memray/article/details/16810763
Python版本的LDA
http://blog.csdn.net/pirage/article/details/8898544
概率主题模型简介 Introduction to Probabilistic Topic Models
http://blog.csdn.net/pi9nc/article/details/9017153
LDA 初见(JGibbLDA-v.1.0 eclipse使用)的更多相关文章
- Micosoft.ReportViewer.WebForms v 11.0... 1.0.1
his dll is required for the use of Microsoft's forms based ReportViewer control. This version is to ...
- 仅仅需手动添加一行代码就可以让Laravel4执行在SAE (v. 1.0.0)
Github:https://github.com/chariothy/laravel4-sae (已更新至v1.1.0) laravel4-sae (v. 1.0.0) 仅仅需手动添加一行代码就可以 ...
- 高屋建瓴 cocos2d-x-3.0架构设计 Cocos2d (v.3.0) rendering pipeline roadmap(原文)
Cocos2d (v.3.0) rendering pipeline roadmap Why (the vision) The way currently Cocos2d does rendering ...
- C++:vector中的v.at(0)和v[0]的区别
设v是一个vector的对象, 如果v是非空的,则v.at(0)和v[0]是没有区别的,都是取数组中第一个值: 如果v是空的,则v.at(0)会抛出异常(exception std::out_of_r ...
- BayaiM__ORACLE之ASM概念 --V 1.0.0
BayaiM__ORACLE之ASM概念 --V 1.0.0 -------------------------------------- ...
- python学习_新闻联播文字版爬虫(V 1.0.1版)
更新记录: 1.新增了headers头的随机获取: 2.新增了logging模块添加日志信息(学习用): #!/usr/bin/env python # -*- coding: utf-8 -*- ' ...
- Windows微信清理工具v.3.0.1
Windows微信清理工具v.3.0.1 今天,我原创的Windows微信清理工具迎来最大更新! v.3.0.0更新内容: 1.使用tkinter重构GUI,界面更简单易用! 2.增加"清理 ...
- 【Python】Windows微信清理工具v.3.0.2
Windows微信清理工具v.3.0.2 更新内容: 1.清理完成时可显示删除了哪些文件. 软件截图: 所有版本及源码下载链接: 百度网盘:https://pan.baidu.com/s/1OSIpv ...
- 搭建Hadoop2.6.0+Eclipse开发调试环境
上一篇在win7虚拟机下搭建了hadoop2.6.0伪分布式环境.为了开发调试方便,本文介绍在eclipse下搭建开发环境,连接和提交任务到hadoop集群. 1. 环境 Eclipse版本Luna ...
随机推荐
- windows下自动关机
定时:at 00:00 shutdown -s //在00:00时关机 倒计时:shutdown -s -t 3600 //3600s后关机 取消:shutdown -a
- Swift3.0语言教程获得一个公共的前缀
Swift3.0语言教程获得一个公共的前缀 Swift3.0语言教程获得一个公共的前缀,当在一个程序中有多个字符串时,我们需要判断是否有两个字符串有公共的前缀时,是很困难的.在NSString中的co ...
- vs 颜色设置
工具-选项-字体和颜色:在项背景点击自定义-色调85 饱和度123 亮度205, 字体则是选择Calibri,个人认为看起来非常舒服.前景字体我选择了偏紫色,会很搭配背景浅绿色以及不会和关键字颜色搞混 ...
- SSH建立连接的过程
1. 服务器建立公钥档: 每一次启动 sshd 服务时,该服务会主动去找 /etc/ssh/ssh_host* 的档案,若刚刚安装完ssh软件时,由于没有这些公钥档案,通过/etc/init. ...
- spring4 mvc 出错
java.lang.IncompatibleClassChangeError: class org.springframework.core.type.classreading.ClassMetada ...
- MFC 动态修改对话框标题
在对应对话框的初始化函数OnInitDialog()中添加以下代码: CString title; title.Format("%d",Id);//在标题栏动态显示Id的值 thi ...
- Redis 安装为Window服务
参考: http://www.cnblogs.com/zhoub/p/3841222.html 关键命令 redis-server.exe –service-install conf/redis.co ...
- Linux chkconfig 命令详解
一.简介 chkconfig 命令主要用来更新(启动或停止)和查询系统服务的运行级信息.谨记chkconfig不是立即自动禁止或激活一个服务,它只是简单的改变了符号连接. 二.安装&启动 us ...
- CodeForceS#276-A
A. Factory One industrial factory is reforming working plan. The director suggested to set a mythi ...
- 【BZOJ1426】收集邮票 期望
[BZOJ1426]收集邮票 Description 有n种不同的邮票,皮皮想收集所有种类的邮票.唯一的收集方法是到同学凡凡那里购买,每次只能买一张,并且买到的邮票究竟是n种邮票中的哪一种是等概率的, ...