JGibbLDA：java版本的LDA(Latent Dirichlet Allocation)实现、修改及使用

转载自：http://blog.csdn.net/memray/article/details/16810763

一、概述

JGibbLDA是一个java版本的LDA（Latent Dirichlet Allocation）实现，它使用Gibbs采样来进行快速参数估计和推断。

LDA是一种由基于概率模型的聚类算法。该算法能够对训练数据（训练数据是这样一种记录的集合，它的每一条记录都是一组离散的项的集合）中的关键项集之于类簇的概率参数拟合模型，进而利用该参数模型实施聚类或分类等操作。

如果你的数据记录是离散的项，想用概率模型进行拟合或“一对多聚类”，不妨尝试一下LDA。

LDA最早是在文本挖掘主题发现（topic discovery）中作为一种图模型而使用。由 David Blei, Andrew Ng, and Michael Jordan 在2002所提出。

[Blei, David M.; Ng, Andrew Y.; Jordan, Michael I (January2003). Lafferty, John. ed. "Latent Dirichlet allocation". Journal ofMachine Learning Research 3 (4–5): pp. 993–1022.doi:10.1162/jmlr.2003.3.4-5.993.]

本文假设你是一个了解LDA，并且打算把它用起来，并且像我一样暂时不打算用Mahout那个以MapReduce进行分布式实现的LDA算法（其实处理大数据量，还是试试Mahout的LDA吧），只是做原型实现的人。本文只说怎么把JGibbLDA在程序里跑起来，以及性能调优，不深入LDA原理。原理将在后续介绍。

二、Code

Code和更多信息请参考JGibbLDA的主页：http://jgibblda.sourceforge.net/#Griffiths04

我对JGibbLDA做了些许修改，包括：1，取消包依赖（原来是一个解析命令行的一个包），取消命令行执行。因为更多情况下不是执行完这一个程序就没事了。2，源代码对概率算到了小数点后N位然后保存，考虑文件规模（30万实验记录），概率保留小数点后3位，大大减小文件体积。3，数据结构上以及其他一些小的改进。4，我相信你一定会针对你的应用场景做修改的。

我的JGibbLDA修改版本可以点击这里进入网盘下载。【链接2013年04月28日已更新，百度网盘】

三、意义

JGibbLDA对于下列研究和应用领域都是比较有用的工具：

1，文本数据的潜语义分析、情感分析、主题聚类

2，文档聚类，文本摘要

3，协同过滤（用户聚类）

4，Content-basedImage Clustering, Object Recognition, and other applications of Computer Visionin general.

四、JGibbLDA的参数说明和设置

   //Specify whether we want to estimate modelfrom scratch

     boolean est= false;  /////是否开始训练模型

     //Specify whether we want to continue thelast estimation

 决定是否是基于先前已有的模型基础上继续用新数据训练模型

     boolean estc= false;

     //Specify whether we want to do inference

     boolean inf= true;    /////是否使用先前已经训练好的模型进行推断

     String dir= "";  //Specify directory  ////数据结果（模型数据）保存位置

     String dfile= "";  //Specify resource data filename    /////训练数据或原始数据文件名

     //Specify the model level to which you wantto applied. ///

     String modelName= "";  ////选择使用哪一个迭代的模型结果来进行推断

     int K= 100;  //Specify the number of topics  /////类簇数目，谨慎设置

     double alpha= 0.2;  //Specify alpha //////平滑系数

     double beta= 0.1;  //Specify beta

     int niters= 1000;  //Specify the number of iterations  /////迭代数目，谨慎设置

     //Specify the number of steps to save themodel since the last save.

     //The step (counted by the number ofGibbssampling iterations) 

     //at which the LDA model is saved to harddisk.

 //指定把迭代结果模型保存到硬盘上的迭代跨度，即每迭代10次保存一次。

     int savestep= 100;

     //Specify the number of most likely wordsto be printed for each topic

     int twords= 100;   /////对每一个类别（话题）选前多少个最大概率词项

     //Specify whether we include raw data in theinput

     public boolean withrawdata= false; 

     //Specify thewordmapfile

     publicString wordMapFileName= "wordmap.txt";  /////生成的副产品的文件名

五、输入数据格式

数据输入格式统一如下所述：

[M]
[document1]
[document2]
...
[documentM]

其中：

第一行为该数据文件有多少条记录数。然后每一行记录按行排列。

这里的“记录”的格式又规定为：

[documenti]= [wordi1] [wordi2] ... [wordiNi]

其中：[wordiNi]为[documenti]的各个词项，以空格分隔。

众所周知，对词项集合进行预处理，如去除停用词、主干提取等，对结果精度的提升有较大帮助。在基于所属宝贝属性序列的用户聚类中，预处理这一步可以省略。因为提取属性序列的主干是一件较为困难的事。

六、输出数据

建立模型阶段，会输出5类以如下规则命名的文件类型：

model-XXXXX.others:

model-XXXXX.phi

model-XXXXX.theta

model-XXXXX.tassign

model-XXXXX.twords

XXXXX都以数字组成。最后一次迭代所保存的这些数字将会换成“final”。

其中：

.others为“信息文件”。文件保存的是跟该LDA模型有关的参数，比如alpha，beta，ntopiccs，ndocs，nwords，liter（the Gibbssampling iteration at which the model was saved）
.phi文件为“词项-主题概率分布文件”。表现上是一个大矩阵M。其中，假设设类簇的数目topict为1000个，每一个主题需要列出top 100个词项wordw，则M以100为行，1000为列。即M每一行是词项，每一列是主题。M元素值则为条件概率p(wordw|topict)，即每个词属于每个主题的概率。
.theta文件为“文档-主题概率分布文件”。表现上也是一个大矩阵M。每行i代表训练数据的一个文档，每一列代表一个主题，元素值则为条件概率 p(topict|documentm)，即该文档属于不同主题的概率。
.tassign文件为“文档-词项-主题分布文件”。该文件与输入文件的格式一致，一行一个文档，只不过原来的输入文件中的词项换成了一个一个“词项ID：类别”。文件每一行代表训练数据的一条文档，原文档由一组词项组成，现每一行为原来的记录词项指派了其最大可能的所属主题。注意，该文档所属主题分布是在theta文件中，并未在tassign文件中指明。
.twords文件为“词项-主题推断文件”。这个文件作为模型参数结果推断出了每一个主题下最优的topN个词项及其概率。请注意这里的主题数和N都是事先指定的。

这5个文件包括副产品wordmap.txt在有些应用场景下有时并不是完全需要的，是否生成可视情况而定。如果利用主题下topN词项来做基于距离的聚类，可能只需.twords即可。

七、推断新数据和关键代码

将产生如下文件，其组织和意义如前所述一致：

newdocs.dat.others
newdocs.dat.phi
newdocs.dat.tassign
newdocs.dat.theta
newdocs.dat.twords

关键代码：初始化一个模型：

LDACmdOptionldaOption = new LDACmdOption();
ldaOption.inf =true;
ldaOption.dir ="C:\\LDAModelDir";
ldaOption.modelName= "newdocs";
ldaOption.niters =100;

推断新数据：

Inferencerinferencer = new Inferencer();
inferencer.init(option);

ldaOption.dfile= "input-lda-data.txt";
Model newModel =inferencer.inference();

数据也可以是词项的一组数组：

String[] test = {"politics bill clinton", "lawcourt", "football match"};
Model newModel =inferencer.inference(test);

=============================================================

关于代码的一点补充[2012年05月01日]：

去掉LDACmdOption，是因为嵌入自己的代码不需要命令行的。参数设置全在Option里。其中，

设置：

option.dir = "D:\\.......\\model";

option.dfile = "doc.dat";

把数据文件doc.dat放在dir里。结果也写在里边。

[document] ：每一行就是一个文档，不需要文档名。结果跟训练数据集顺序一致。一旦模型生成，可以来一个文档做一个lda分类：

Option option = new Option();

   option.dir = "D:\\.......\\model";

    option.est = false;

  option.estc = false;

option.inf = true;

option.modelName = "model-final";

  Inferencer inferencer = new Inferencer();

inferencer.init(option);

  while(line){

String [] newData = new String[1];

newData[0] = line;

Model newModel = inferencer.inference(newData);

        for (int j = 0; j < newModel.theta[0].length; j++) {

                        sysout(newModel.theta[0][j]);

    }

 }

这里，看的是θ（theta），doc-topic关系。同样也可以看φ（phi），word-topic关系。都用文件保存，具体怎么用就看你用什么数据结构（比如HashMap）来存了。

JGibbLDA：java版本的LDA(Latent Dirichlet Allocation)实现、修改及使用的更多相关文章

LDA(latent dirichlet allocation)
1.LDA介绍 LDA假设生成一份文档的步骤如下: 模型表示: 单词w:词典的长度为v,则单词为长度为v的,只有一个分量是1,其他分量为0的向量 $(0,0,...,0,1,0,... ...
LDA(Latent Dirichlet allocation)主题模型
LDA是一种典型的词袋模型,即它认为一篇文档是由一组词构成的一个集合,词与词之间没有顺序以及先后的关系.一篇文档可以包含多个主题,文档中每一个词都由其中的一个主题生成. 它是一种主题模型,它可以将文档 ...
LDA(Latent Dirichlet Allocation)主题模型算法
原文 LDA整体流程先定义一些字母的含义: 文档集合D,topic集合T D中每个文档d看作一个单词序列< w1,w2,...,wn >,wi表示第i个单词,设d有n个单词.(LDA里面 ...
Latent Dirichlet Allocation 文本分类主题模型
文本提取特征常用的模型有:1.Bag-of-words:最原始的特征集,一个单词/分词就是一个特征.往往一个数据集就会有上万个特征:有一些简单的指标可以帮助筛选掉一些对分类没帮助的词语,例如去停词,计 ...
LDA（ Latent Dirichlet Allocation）主题模型学习报告
1 问题描述 LDA由Blei, David M..Ng, Andrew Y..Jordan于2003年提出,是一种主题模型,它可以将文档集中每篇文档的主题以概率分布的形式给出,从而通过分析一 ...
转：关于Latent Dirichlet Allocation及Hierarchical LDA模型的必读文章和相关代码
关于Latent Dirichlet Allocation及Hierarchical LDA模型的必读文章和相关代码转: http://andyliuxs.iteye.com/blog/105174 ...
[综] Latent Dirichlet Allocation(LDA)主题模型算法
多项分布 http://szjc.math168.com/book/ebookdetail.aspx?cateid=1&&sectionid=983 二项分布和多项分布 http:// ...
LDA（Latent Dirichlet Allocation）
转自:http://leyew.blog.51cto.com/5043877/860255#559183-tsina-1-46862-ed0973a0c870156ed15f06a6573c8bf0 ...
LDA（latent dirichlet allocation）的应用
http://www.52ml.net/1917.html 主题模型LDA(latent dirichlet allocation)的应用还是很广泛的,之前我自己在检索.图像分类.文本分类.用户评论的 ...

随机推荐

转: ios app架构设计
http://keeganlee.me/post/architecture/20160107 看完这一系列文章后就知道怎么回答这类问题了: App架构设计经验谈:接口的设计 App架构设计经验谈:技术 ...
MVC 菜鸟学习记录2
自定义Html.Helper扩展方法在Models文件夹下新建一个静态类,取名为:MyHtmlHelper.cs 将MyHtmlHelper设置为static,并写入以下的一个静态方法 public ...
Javascript delete 引用类型对象
很少使用javascript的delete,最近因为一个小bug发现删除引用类型对象的时候有一点不同.如下面例子: var testVar = { a : { test : 1 } }, test1 ...
简直喝血！H.265要被专利费活活玩死
转自 http://news.mydrivers.com/1/440/440145.htm H.264是如今最流行的视频编码格式之一,不但技术先进,而且专利费很低,企业每年只需支付650万美元,而个人 ...
jquery 获得table 行数
1.获得Table总行数,分别使用了两种方法,结果不同:: 1).$("#table_Id").children("tr").length; 只能获得静态页面t ...
理解C#系列 / 核心C# / 名称空间
名称空间namespace 名称空间名称空间用来逻辑分类,而不是物理上的,名称空间与程序集无关[程序集:经由编译器编译得到的文件],同一个程序集中可以有2不同的名称空间,也可以在不同的程序集中定义同 ...
对match() 和 exec() 返回值和属性的测试
语法: exec() : RegExpObject.exec(string) match() : stringObject.match(string) stringObject.match(regex ...
Java 字节流实现文件读写操作（InputStream-OutputStream）
Java 字节流实现文件读写操作(InputStream-OutputStream) 备注:字节流比字符流底层,但是效率底下. 字符流地址:http://pengyan5945.iteye.com/b ...
IE Problem : inetcpl.cpl
从windows8升级windows8.1后每次关闭ie11浏览器总是跳出出现一个问题导致关闭,我都快疯了,以前windows8一点问题都没有.这是怎么回事?还有能回到ie10吗?(张浩228) 小昕 ...
NOIP 2015复赛提高组Day2 T1==Codevs 4768 跳石头
时间限制: 1 s 空间限制: 128000 KB 题目等级 : 黄金 Gold 题目描述 Description 一年一度的“跳石头”比赛又要开始了! 这项比赛将在一条笔直的河道中进行,河道中 ...

JGibbLDA：java版本的LDA(Latent Dirichlet Allocation)实现、修改及使用

JGibbLDA：java版本的LDA(Latent Dirichlet Allocation)实现、修改及使用的更多相关文章

随机推荐

热门专题