数据准备：

canopy.dat文件，COPY到HDFS上，文件内容如下：

8.1  8.1

7.1  7.1

6.2  6.2

7.1  7.1

2.1  2.1

1.1 1.1

0.1 0.1

3.0 3.0

算法简单说明，步骤如下:

（1） 将所有数据放进list中，选择两个距离，T1，T2，T1>T2

（2）While(list不为空)

{ 

随机选择一个节点做canopy的中心；并从list删除该点；

遍历list：

对于任何一条记录，计算其到各个canopy的距离；

如果距离<T2,则给此数据打上强标记，并从list删除这条记录；

如果距离<T1,则给此数据打上弱标记；

如果到任何canopy中心的聚类都>T1,那么将这条记录作为一个新的canopy的中心，并从list中删除这个元素；

}

预期的结果应该是：

Canopy 1 (8.1,8.1) :[ (8.1,8.1),  (7.1,7.1),  (6.2,6.2) ,(7.1,7.1) ]

Canopy 2 (2.1,2.1) :[ (2.1,2.1), (1.1,1.1) ,(0.1,0.1),  (3.0,3.0)  ]

Canopy 3 (0.1,0.1) :[ (0.1,0.1)]

下面开始用Mahout实现

# 1.将数据文件转换成向量

mahout用InputDriver数据转换时候，需要数据默认用空格分隔

mahout org.apache.mahout.clustering.conversion.InputDriver -i /user/hdfs/canopy/in/canopy.dat -o /user/hdfs/canopy/vecfile -v org.apache.mahout.math.RandomAccessSparseVector

# 2. 调用命令

mahout canopy -i /user/hdfs/canopy/vecfile -o /user/hdfs/canopy/out/result -t1 8 -t2 4 -ow -cl

参数说明：

CanopyDriver.main(args);
--input (-i)	输入路径
--output(-o)	输出路径
--distanceMeasure(-dm)	距离度量类的权限命名，如：”org.apache.mahout.common.distance.CosineDistanceMeasure”
--t1 (-t1)	t1值（t1>t2）
--t2 (-t2)	t2值
--t3 (-t3)	t3值，默认t3=t1
--t4(-t4)	t4值，默认t4=t2
--overwrite (-ow)	是否覆盖上次操作的结果
--clustering (-cl)	是否执行聚类操作，即划分数据
--method (-method)	默认，mapreduce。还可选sequential，执行单机模式

# 3.查看结果

mahout seqdumper -i /user/hdfs/canopy/out/result/clusters-0-final/part-r-00000  -o /home/hadoop/output/result

#关联各个点

mahout clusterdump -i /user/hdfs/canopy/out/result/clusters-0-final/part-r-00000  -o /home/hadoop/output/result -p /user/hdfs/canopy/out/result/clusteredPoints

C-0{n=2 c=[6.888, 6.888] r=[0.237, 0.237]}

Weight : [props - optional]: Point:

1.0: [8.100, 8.100]

1.0: [7.100, 7.100]

1.0: [6.200, 6.200]

1.0: [7.100, 7.100]

C-1{n=2 c=[1.083, 1.083] r=[0.983, 0.983]}

Weight : [props - optional]: Point:

1.0: [2.100, 2.100]

1.0: [1.100, 1.100]

1.0: [3.000, 3.000]

C-2{n=1 c=[0.100, 0.100] r=[]}

Weight : [props - optional]: Point:

1.0: [0.100, 0.100]

mahout 实现canopy的更多相关文章

Mahout之Canopy Clustering深入理解
转自:http://www.cnblogs.com/vivounicorn/archive/2011/09/23/2186483.html Mahout学习——Canopy Clustering 聚类 ...
mahout之canopy算法简单理解
canopy是聚类算法的一种实现它是一种快速,简单,但是不太准确的聚类算法 canopy通过两个人为确定的阈值t1,t2来对数据进行计算,可以达到将一堆混乱的数据分类成有一定规则的n个数据堆由于c ...
Canopy算法聚类
Canopy一般用在Kmeans之前的粗聚类.考虑到Kmeans在使用上必须要确定K的大小,而往往数据集预先不能确定K的值大小的,这样如果 K取的不合理会带来K均值的误差很大(也就是说K均值对噪声的抗 ...
Mahout机器学习平台之聚类算法具体剖析（含实例分析）
第一部分: 学习Mahout必需要知道的资料查找技能: 学会查官方帮助文档: 解压用于安装文件(mahout-distribution-0.6.tar.gz),找到例如以下位置.我将该文件解压到win ...
深入浅出Hadoop Mahout数据挖掘实战(算法分析、项目实战、中文分词技术)
Mahout简介 Mahout 是 Apache Software Foundation(ASF) 旗下的一个开源项目, 提供一些可扩展的机器学习领域经典算法的实现,旨在帮助开发人员更加方便快捷地创建 ...
学习Mahout(三)
开发+运行第一个Mahout的程序代码: /** * Licensed to the Apache Software Foundation (ASF) under one or more * con ...
hadoop文本转换为序列文件
在以前使用hadoop的时候因为mahout里面很多都要求输入文件时序列文件,所以涉及到把文本文件转换为序列文件或者序列文件转为文本文件(因为当时要分析mahout的源码,所以就要看到它的输入文件是什 ...
北风风hadoop课程体系
课程一.基于Linux操作系统平台下的Java语言开发(20课时)课程简介本套课程主要介绍了Linux系统下的Java环境搭建及最基础的Java语法知识.学习Linux操作系统下Java语言开发的好处 ...
基于Hadoop2.0、YARN技术的大数据高阶应用实战(Hadoop2.0\YARN\Ma
Hadoop的前景随着云计算.大数据迅速发展,亟需用hadoop解决大数据量高并发访问的瓶颈.谷歌.淘宝.百度.京东等底层都应用hadoop.越来越多的企业急需引入hadoop技术人才.由于掌握H ...

随机推荐

zabbix实现mysql数据库的监控（四）
前面介绍的内容都是用第三方开发好的插件进行mysql监控的,可能有些我们关心的监控内容并不在其中,这时一种常用的方法就是定义我们自己的脚本并将它整合到zabbix中,从而在原有监控的基础上进行有力的补 ...
hbase shell-dml（数据管理指令）
hbase shell数据管理篇: append count delete deleteall get get_counter get_splits incr put scan truncate tr ...
剑指offer之调整奇数偶数数组位置
package Problem14; /* * 问题描述: * 输入一个整数数组,实现一个函数来调整该数组中数字的顺序,使得所有奇数位与数组的前半部分,所有偶数位与数组的 * 后半部分 */ publ ...
Idea中配置Tomcat7的JNDI
1.进入目录 D:\apache-tomcat-7.0.73\conf\Catalina\localhost 添加hello.xml ,内容为: <Context path="/hel ...
Qt窗口屏幕居中显示
转自--> http://blog.chinaunix.net/uid-20718335-id-364404.html 窗口的屏幕居中显示问题,在各开发工具中原理相同,首先使用特定的方法得到显示 ...
Windows默认字符集_查询
https://zhidao.baidu.com/question/32462047.html Windows95. XP……7操作系统自带的都是GBK字符集(含2万余汉字),是完全兼容GB2312( ...
java备份和恢复数据代码例子
import java.io.BufferedReader; import java.io.File; import java.io.FileInputStream; import java.io.F ...
分享知识-快乐自己：java代码操作 solr
POM 文件:  <dependency> <groupId>org.apache.solr</groupId> < ...
python基础-变量
1.什么是变量? 其实就是给数据起个名字而已.在python中你不想要关心数据类型,因为在你赋值的时候它已经自己帮你识别了 2.创建变量时候会在内存中开辟一个空间,具体的细节不需要咱们关心,解释器会分 ...
Python中深拷贝与浅拷贝区别
浅拷贝, list值是可变的,str值不可变,只能重新赋值 a=b=c='wjx'print(a,b,c)c= 'jmy'#重新赋值了,所以内存分配了新的地址print(a,b,c)print(id( ...

mahout 实现canopy