目前最快速Kmeans算法，并由java实现！面对很大的K值表现依然很好。

代码地址： https://github.com/Jethu1/fastKmeans

#1.这是一个由java实现的的，多线程Kmeans聚类算法；

#2.在聚类的选种阶段分别实现了Kmeans++算法和NIPS 2016的文章“Fast and Probably Good Seedings for k-Means”中提出了AFK-MC²算法，该算法改进了k-Means算法中初始种子点的生成方式，使其聚类速度相较于目前最好的k-Means++方式提高了好几个数量级。

#3.在迭代计算加速方面实现了2018年的一篇文章中描述的迭代加速算法Ameans：A-means improving the cluster assignment phase of k-means for Big Data；上述两篇论文在项目的doc文件夹中。

#4.如果你的项目中的向量是稀疏向量，并且有值的位置可以提前保存到List中，那么可以将这个List纳入聚类计算中，在进行两个向量间的距离计算时，只计算有值位置的距离。

#5.实现起来不容易，如果觉得有用麻烦给fastKmeans项目点个赞呗。

使用方法

1.一般的使用方式： List<List> clusterRes = MultiThreadKmeans.run(kmeansData, kmeansData.length*0.7, kmeansData.length * 20,10,2);

kmeansData: 矩阵

kmeansData.length*0.7：聚类个数

kmeansData.length * 20：最大迭代次数

10：开启线程数目

2：使用哪一种选种算法；1：随机选种 2：Kmean++选种 3: AFK-MC2选种

2.以文本聚类为例，如果在进行文本向量化是保存了词的非零位置： List<List> nouzeroList = TfIdf.getZeroList(nodeContents); //TFIDF方式进行文本向量化,nodeContents为文本内容

List<List> clusterRes = MultiThreadKmeans.run(kmeansData, kmeansData.length*0.7, kmeansData.length * 20,10,nouzeroList，2);

目前最快速的多线程Kmeans算法，java实现的更多相关文章

【Java】K-means算法Java实现以及图像切割
1.K-means算法简述以及代码原型数据挖掘中一个重要算法是K-means.我这里就不做具体介绍.假设感兴趣的话能够移步陈皓的博客: http://www.csdn.net/article/201 ...
K-Means 算法(Java)
kMeans算法原理见我的上一篇文章.这里介绍K-Means的Java实现方法,参考了Python的实现方法. 一.数据点的实现 package com.meachine.learning.kmean ...
k-means算法Java一维实现
这里的程序稍微有点变形.k_means方法返回K-means聚类的若干中心点.代码: import java.util.ArrayList; import java.util.Collections; ...
K-means算法Java实现
public class KMeansCluster { private int k;//簇的个数 private int num = 100000;//迭代次数 ...
原创：Kmeans算法实战+改进（java实现）
kmeans算法的流程: EM思想很伟大,在处理含有隐式变量的机器学习算法中很有用.聚类算法包括kmeans,高斯混合聚类,快速迭代聚类等等,都离不开EM思想.在了解kmeans算法之前,有必要详 ...
K-Means算法的Java实现
K-means算法是硬聚类算法,是典型的基于原型的目标函数聚类方法的代表,它是数据点到原型的某种距离作为优化的目标函数,利用函数求极值的方法得到迭代运算的调整规则.K-means算法以欧式距离作为相似 ...
Java实现Kmeans算法
Kmeans算法的Java实现.源代码放在github上,大家有兴趣能够下下来看看, 源代码地址: https://github.com/l294265421/algorithm-kmeans 实现该 ...
K-Means算法的收敛性和如何快速收敛超大的KMeans？
不多说,直接上干货! 面试很容易被问的:K-Means算法的收敛性. 在网上查阅了很多资料,并没有看到很清晰的解释,所以希望可以从K-Means与EM算法的关系,以及EM算法本身的收敛性证明中找到蛛丝 ...
Kmeans算法的K值和聚类中心的确定
0 K-means算法简介 K-means是最为经典的基于划分的聚类方法,是十大经典数据挖掘算法之一. K-means算法的基本思想是:以空间中k个点为中心进行聚类,对最靠近他们的对象归类.通过迭代的 ...

随机推荐

03 JAVA IO
java.io包中定义了多个流类型来实现输入输出功能,以不同的角度进行分类: 按数据流的方向不同可以分为输入流和输出流按处理数据单位不通可以分为字节流和字符流按照功能不同可以分为节点流和处理流所 ...
[codecademy]css
Great work! You've learned the basics of CSS structure and syntax. We'll continue to build on these ...
psp 第二周
11号 12号类别c 内容c 开始时间s 结 ...
（七）对Jmeter进行参数化的俩种方式
一.使用CSV Data Set Config: 1.添加CSV Data Set Config: 2.配置参数: Filename:文件名,指保存参数化数据的文件目录,可以相对或者绝对路径. Fil ...
简单的 php 防注入、防跨站函数
/** * 简单的 php 防注入.防跨站函数 * @return String */ function fn_safe($str_string) { //直接剔除 $_arr_dangerChar ...
action动作类的生命周期
创建:Action动作类每次请求的时候都会创建一个实例对象销毁:当前action动作类的请求响应完后就消失了跟javaweb中的HttpServletRequest的生命周期是一样的,struts ...
[二十]SpringBoot 之（多）文件上传
(1)新建maven Java project 新建一个名称为spring-boot-fileuploadmaven java项目 (2)在pom.xml加入相应依赖: <project xml ...
(转)linux下压缩和归档相关命令tar,zip,gzip,bzip2
压缩包也有两种形式,一种是tar.gz包(.tgz包也是这种),一种是tar.bz2包. tar.gz包的解压方法:tar zxvf [PackageName].tar.gz tar.bz2包的解压方 ...
《Node入门》读书笔记——用Node.js开发一个小应用
Android APP的开发告一段落,一个稳定的.实现了基本功能的APP已经交付用户使用了!我和老板交流了下,接下来准备转战Node.js了,而且一部分前端的功能也要做进去!哈哈哈~~~接下来要朝一个 ...
20135239 益西拉姆 linux内核分析跟踪分析Linux内核的启动过程
回顾 1.中断上下文的切换——保存现场&恢复现场本节主要课程内容 Linux内核源代码简介 1.打开内核源代码页面 arch/目录:支持不同CPU的源代码:其中的X86是重点 init/目录 ...

目前最快速的多线程Kmeans算法，java实现

目前最快速Kmeans算法，并由java实现！面对很大的K值表现依然很好。

使用方法

目前最快速的多线程Kmeans算法，java实现的更多相关文章

随机推荐

热门专题