Weka中EM算法详解

  private void EM_Init (Instances inst)

     throws Exception {

     int i, j, k;

     // 由于EM算法对初始值较敏感，故选择run k means 10 times and choose best solution

     SimpleKMeans bestK = null;

     double bestSqE = Double.MAX_VALUE;

     for (i = 0; i < 10; i++) {

       SimpleKMeans sk = new SimpleKMeans();

       sk.setSeed(m_rr.nextInt());

       sk.setNumClusters(m_num_clusters);

       sk.setDisplayStdDevs(true);

       sk.buildClusterer(inst);

       //KMeans中各个cluster的平方误差

       if (sk.getSquaredError() < bestSqE) {

           bestSqE = sk.getSquaredError();

           bestK = sk;

       }

     }

     /*************** KMeans Finds the best cluster number *****************/

     // initialize with best k-means solution

     m_num_clusters = bestK.numberOfClusters();

     // 每个样本所在各个集群的概率

     m_weights = new double[inst.numInstances()][m_num_clusters];

     // 评估每个集群所对应的离散型属性的相关取值
30     m_model = new DiscreteEstimator[m_num_clusters][m_num_attribs];

     // 每个集群所对应的连续性属性数所对应的相关取值（均值，标准偏差，样本权值（进行归一化））

     m_modelNormal = new double[m_num_clusters][m_num_attribs][3];

     // 每个集群所对应的先验概率

     m_priors = new double[m_num_clusters];

     // 每个集群所对应的中心点

     Instances centers = bestK.getClusterCentroids();

     // 每个集群所对应的标准差

     Instances stdD = bestK.getClusterStandardDevs();

     // ??? Returns for each cluster the frequency counts for the values of each nominal attribute

     int [][][] nominalCounts = bestK.getClusterNominalCounts();

     // 得到每个集群所对应的样本数

     int [] clusterSizes = bestK.getClusterSizes();

     for (i = 0; i < m_num_clusters; i++) {

       Instance center = centers.instance(i);

       for (j = 0; j < m_num_attribs; j++) {

       // 样本属性是离散型

       if (inst.attribute(j).isNominal())

       {

           m_model[i][j] = new DiscreteEstimator(m_theInstances.attribute(j).numValues()

                                               , true);

           for (k = 0; k < inst.attribute(j).numValues(); k++) {

               m_model[i][j].addValue(k, nominalCounts[i][j][k]);

           }

       }

       //// 样本属性是连续型

       else

       {

           double minStdD = (m_minStdDevPerAtt != null)? m_minStdDevPerAtt[j]: m_minStdDev;

           double mean = (center.isMissing(j))? inst.meanOrMode(j): center.value(j);

           m_modelNormal[i][j][0] = mean;

           double stdv = (stdD.instance(i).isMissing(j))? ((m_maxValues[j] -

                       m_minValues[j]) / (2 * m_num_clusters)): stdD.instance(i).value(j);

           if (stdv < minStdD)

           {

               stdv = inst.attributeStats(j).numericStats.stdDev;

               if (Double.isInfinite(stdv)) {

                   stdv = minStdD;

               }

               if (stdv < minStdD) {

                   stdv = minStdD;

               }

           }

           if (stdv <= 0) {

               stdv = m_minStdDev;

           }

           m_modelNormal[i][j][1] = stdv;

           m_modelNormal[i][j][2] = 1.0;

       }

      }

     }    

     for (j = 0; j < m_num_clusters; j++) {

       // 计算每个集群的先验概率

       m_priors[j] = clusterSizes[j];

     }

     Utils.normalize(m_priors);

   }

Weka中EM算法详解的更多相关文章

EM算法详解
EM算法详解 1 极大似然估计假设有如图1的X所示的抽取的n个学生某门课程的成绩,又知学生的成绩符合高斯分布f(x|μ,σ2),求学生的成绩最符合哪种高斯分布,即μ和σ2最优值是什么? 图1 学生成 ...
css中em单位详解，说明
em详解 em可以理解成“倍”. em会以父级元素中所设置的字体像素值为基准值进行成倍放大: 字体大小=(父级元素中的字体像素 * em的值) 例: 网页部分代码如下: 1.我现在没有在父级 ...
从最大似然函数到 EM算法详解
极大似然算法本来打算把别人讲的好的博文放在上面的,但是感觉那个适合看着玩,我看过之后感觉懂了,然后实际应用就不会了.... MLP其实就是用来求模型参数的,核心就是“模型已知,求取参数”,模型的意思 ...
javascript 中合并排序算法详解
javascript 中合并排序算法详解我会通过程序的执行过程来给大家合并排序是如何排序的... 合并排序代码如下: <script type="text/javascript& ...
SVD在推荐系统中的应用详解以及算法推导
SVD在推荐系统中的应用详解以及算法推导出处http://blog.csdn.net/zhongkejingwang/article/details/43083603 前面文章SVD原理及推 ...
BM算法　　Boyer-Moore高质量实现代码详解与算法详解
Boyer-Moore高质量实现代码详解与算法详解鉴于我见到对算法本身分析非常透彻的文章以及实现的非常精巧的文章,所以就转载了,本文的贡献在于将两者结合起来,方便大家了解代码实现! 算法详解转自:h ...
kmp算法详解
转自:http://blog.csdn.net/ddupd/article/details/19899263 KMP算法详解 KMP算法简介: KMP算法是一种高效的字符串匹配算法,关于字符串匹配最简 ...
机器学习经典算法详解及Python实现--基于SMO的SVM分类器
原文:http://blog.csdn.net/suipingsp/article/details/41645779 支持向量机基本上是最好的有监督学习算法,因其英文名为support vector ...
[转] KMP算法详解
转载自:http://www.matrix67.com/blog/archives/115 KMP算法详解如果机房马上要关门了,或者你急着要和MM约会,请直接跳到第六个自然段. 我们这里说的K ...

随机推荐

HDU 5319 Painter (模拟)
题意: 一个画家画出一张,有3种颜色的笔,R.G.B.R看成'\',B看成'/',G看成这两种的重叠(即叉形).给的是一个矩阵,矩阵中只有4种符号,除了3种颜色还有'.',代表没有涂色.问最小耗费多少 ...
【英语】Bingo口语笔记(68) - come系列
mysql 查看所有存储过程
转载地址:http://zhuixue.iteye.com/blog/375353 查询数据库中的存储过程方法一: select `name` from mysql.proc where db = ...
【转】Linux设备驱动之mmap设备操作
原文网址:http://www.cnblogs.com/geneil/archive/2011/12/08/2281222.html 1.mmap系统调用 void *mmap(void *addr, ...
Task和BackTask
一.总结性知识点: 1.Android应用运行时会创建任务Task,用于存放主窗口 2.每一个任务包含一个堆栈数据结构,用于保存当前应用已创建的窗口对象,这个堆栈即回退栈BackSta ...
Java条件语句之 switch
当需要对选项进行等值判断时,使用 switch 语句更加简洁明了.例如:根据考试的名次,给予前 4 名不同的奖品.第一名,奖励笔记本一台:第二名,奖励 IPAD 2 一个:第三名,奖励移动电源一个:最 ...
delete之后千万要记得将指针置空，即勿重复delete！！！
下面这段代码有什么问题吗?(Arduino上运行) class C{ public: C(){ ptr = ]; } ~C(){ if(ptr!=NULL)delete [] ptr; } void ...
软件测试——boost单元测试 C++
分类: 1. 下载安装Boost 2. 在vs2010 中设置工具->选项->vc++目录设置包含文件目录:找到解压的boost文件夹eg:C:\boost_1_43_03. ...
2016年JavaScript技术栈展望
如果你正在筹划新的前端项目或者重构现有项目,那么你需要认识到现在的前端开发环境已经今非昔比,这其中有太多的选择了:React.Flux.Angular.Aurelia.Mocha.Jasmine.Ba ...
duilib List控件，横向滚动时列表项不移动或者显示错位的bug的修复
转载请说明出处,谢谢~~:http://blog.csdn.net/zhuhongshu/article/details/42264673 关于这个bug的修复我之前写过一篇博客,连接为:http:/ ...

Weka中EM算法详解

Weka中EM算法详解的更多相关文章

随机推荐

热门专题