1.版本和安装路径

Ubuntu 14.04

Mahout_Home=/opt/mahout-0.10.1

Hadoop_Home=/usr/local/hadoop

Mavent_Home=/opt/apache-mavent-3.3.3

Hadoop version=2.6.0

Mahout version=0.10.1

Mavent version=3.3.3

2.Mahout重新编译

Mahout下载：http://archive.apache.org/dist/mahout/

在2.0版本以上的hadoop上使用时, 需要重新编译

$ git clone https://github.com/apache/mahout.git

$ mvn clean package -Dhadoop2 -Dhadoop2.version=2.6.0 -DskipTests=true

编译完成后将编译出来的

\mahout\examples\target\mahout-examples-SNAPSHOT-0.10.1.jar

\mahout\examples\target\mahout-examples-SNAPSHOT-0.10.1-job.jar

替换mahout目录中的mahout-examples-0.10.1.jar, mahout-examples-0.10.1-job.jar两个文件

3.环境变量

sudo gedit ~/.bashrc

#Mahout

HADOOP_HOME=/usr/local/hadoop

HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop

MAHOUT_HOME=/opt/mahout-0.10.1

MAHOUT_CONF_DIR=$MAHOUT_HOME/conf

PATH=$PATH:$HADOOP_HOME/bin:$MAHOUT_HOME/bin

#Maven

MAVEN_HOME=/opt/apache-maven-3.3.3

export MAVEN_HOME

export PATH=${PATH}:${MAVEN_HOME}/bin

安装路径要跟自己的要一致

环境变量更改立即生效：

source ~/.bashrc

在Mahout安装路径下运行命令：mahout，安装成功。

4.kmeans简单运行

下载测试数据集synthetic_control.data

http://archive.ics.uci.edu/ml/databases/synthetic_control/

在HDFS中创建testdata目录，必须是testdata目录！并且每次运行hadoop都要删掉原来的output目录！

bin/hadoop fs -mkdir -p testdata

上传到HDFS中testdata目录中

hadoop fs -copyFromLocal /home/hadoop/桌面/synthetic_control.data testdata

在Mahout安装目录下启动kmeans

mahout org.apache.mahout.clustering.syntheticcontrol.kmeans.Job

结果：

查看output目录：

eclipse下

Mahout 0.10.1安装（Hadoop2.6.0）及Kmeans测试的更多相关文章

Kafka：ZK+Kafka+Spark Streaming集群环境搭建（十）安装hadoop2.9.0搭建HA
如何搭建配置centos虚拟机请参考<Kafka:ZK+Kafka+Spark Streaming集群环境搭建(一)VMW安装四台CentOS,并实现本机与它们能交互,虚拟机内部实现可以上网.& ...
Kafka：ZK+Kafka+Spark Streaming集群环境搭建（二）安装hadoop2.9.0
如何搭建配置centos虚拟机请参考<Kafka:ZK+Kafka+Spark Streaming集群环境搭建(一)VMW安装四台CentOS,并实现本机与它们能交互,虚拟机内部实现可以上网.& ...
一、Ubuntu14.04下安装Hadoop2.4.0 （单机模式）
一.在Ubuntu下创建hadoop组和hadoop用户增加hadoop用户组,同时在该组里增加hadoop用户,后续在涉及到hadoop操作时,我们使用该用户. 1.创建hadoop用户组 2.创 ...
Ubuntu 14.04下安装Hadoop2.4.0 （单机模式）
转自 http://www.linuxidc.com/Linux/2015-01/112370.htm 一.在Ubuntu下创建Hadoop组和hadoop用户增加hadoop用户组,同时在该组里增 ...
二、Ubuntu14.04下安装Hadoop2.4.0 （伪分布模式）
在Ubuntu14.04下安装Hadoop2.4.0 (单机模式)基础上配置一.配置core-site.xml /usr/local/hadoop/etc/hadoop/core-site.xml ...
ubuntu 10.04 安装qt 5.0.2
转自ubuntu 10.04 安装qt 5.0.2 从qt project网站下载下来最新的qt5.0.2套件,发现是个.run文件,添加x属性,然后直接sudo ./****.run, 提示 /l ...
安装hadoop2.6.0伪分布式环境
集群环境搭建请见:http://blog.csdn.net/jediael_lu/article/details/45145767 一.环境准备 1.安装linux.jdk 2.下载hadoop2.6 ...
安装hadoop2.6.0伪分布式环境分类： A1_HADOOP 2015-04-27 18:59 409人阅读评论(0) 收藏
集群环境搭建请见:http://blog.csdn.net/jediael_lu/article/details/45145767 一.环境准备 1.安装linux.jdk 2.下载hadoop2.6 ...
在CUDA8.0下编译安装OpenCV3.1.0来实现GPU加速(Compiling OpenCV3.1.0 with CUDA8.0 support)
在CUDA8.0下编译安装OpenCV3.1.0 一.本人电脑配置:ubuntu 14.04, NVIDIA GTX1060. 二.编译OpenCV3.1.0前,读者需要成功安装CUDA8.0(网上有 ...
Centos 6.8 安装 Protocol Buffers ， v3.2.0有 BUG ,安装 3.1.0
Centos 6.8 安装 Protocol Buffers , v3.2.0有 BUG ,安装 3.1.0 切换到用户目录 cd ~ 安装 python2.7,须加入zlib wget http ...

随机推荐

002-Spring Boot将WAR文件部署到Tomcat
一.概述 springboot 带有内置Tomcat 服务器,可以直接将项目打包成jar运行,如果在需要把项目打成war包,使用外置tomcat部署.下面是将springboot项目部署为war项目的 ...
21.如何将java类对象转化为json字符串
使用阿里巴巴的fastJson 下载链接: 链接: https://pan.baidu.com/s/1dHjLOm1 密码: rr3w 用法如下: User user = new User(); us ...
PHP命名空间-总结
首先创建三个文件: one.php.two.php.three.php one.php namespace a\b\c; class Type { function getInfo(){ echo & ...
Singleton: this & instance
public class Singleton{ private static final Singleton instance = new Singleton(); private String na ...
memcache服务端与客户端的安装部署
1)安装memcached前需要先安装libevent [root@aliyun tools]# tar -zxf libevent-1.4.13-stable.tar.gz [root@aliyun ...
Linux_Vi_命令
Linux Vi 命令 ************************************************************************* 在vi中使用命令的方法是:冒 ...
Linux树莓派中/etc/rc.local不执行的问题
最近研究在树莓派中嵌入式开发java程序,并打算和Salesforce进行通信.需要开发一个java的web server,不想弄那么复杂,于是打算在linux系统中/etc/rc.local写想要执 ...
java获取时间戳
package com.ycy.test; import java.text.SimpleDateFormat; import java.util.Date; public class ItemsCo ...
tomcat高并发配置调优
最近部署的tomcat,里面放了一个apk提供给测试人员测试,而有一天压测的时候,他们一致反馈下载不了,结果查看日志才发现如下错误: [html] view plain copy INFO: Maxi ...
Linux 实时性能测试工具——Cyclictest
Cyclictest 是 rt-tests 下的一个测试工具,也是rt-tests 下使用最广泛的测试工具,一般主要用来测试使用内核的延迟,从而判断内核的实时性. 1.2 cyclictest 安装 ...