数据挖掘---推荐算法(Mahout工具)

一、简介

Apache顶级项目(2010.4)

Hadoop上的开源机器学习库

可伸缩扩展的

Java库

推荐引擎(协同过滤)、聚类和分类

二、机器学习介绍

通常问题都归为这几类问题

分类问题

回归问题

聚类问题

推荐问题

三、安装方法

3.1 下载Mahout

wget http://archive.apache.org/dist/mahout/0.9/mahout-distribution-0.9.tar.gz

3.2 解压

tar -zxvf  mahout-distribution-0.9.tar.gz

四、配置环境变量

4.1 配置mahout环境变量

# set mahout environment

export MAHOUT_HOME=/usr/local/src/mahout-distribution-0.9

export MAHOUT_CONF_DIR=$MAHOUT_HOME/conf

export PATH=$MAHOUT_HOME/conf:$MAHOUT_HOME/bin:$PATH

4.2 配置Mahout所需的Hadoop环境变量

# set hadoop environment

export HADOOP_HOME=/usr/local/src/hadoop-1.2.1

export HADOOP_CONF_DIR=$HADOOP_HOME/conf

export PATH=$PATH:$HADOOP_HOME/bin

export HADOOP_HOME_WARN_SUPPRESS=not_null

五、验证是否成功

直接执行mahout命令

支持算法列表

六、准备数据

数据格式：

1,100001,5

1,100002,3

1,100003,4

1,100004,3

1,100005,3

1,100007,4

1,100008,1

1,100009,5

1,1000011,2

七、训练

INPUT="/movie_lens.data"

TMP_DIR="/mahout_temp"

OUTPUT="/cf_mahout_output"

MAHOUT_CMD="/usr/local/src/mahout-distribution-0.9/bin/mahout“

$MAHOUT_CMD itemsimilarity

-i $INPUT

-o $OUTPUT

--maxSimilaritiesPerItem 1000

--threshold 0.0000001

--similarityClassname SIMILARITY_COSINE

--tempDir $TMP_DIR

八、输出结果

大数据之路【第十四篇】:数据挖掘--推荐算法(Mahout工具)的更多相关文章

Python之路【第二十四篇】Python算法排序一
什么是算法 1.什么是算法算法(algorithm):就是定义良好的计算过程,他取一个或一组的值为输入,并产生出一个或一组值作为输出.简单来说算法就是一系列的计算步骤,用来将输入数据转化成输出结果. ...
大数据笔记（二十四）——Scala面向对象编程实例
===================== Scala语言的面向对象编程 ======================== 一.面向对象的基本概念:把数据和操作数据的方法放到一起,作为一个整体(类 c ...
Python之路(第二十四篇) 面向对象初级：多态、封装
一.多态多态多态:一类事物有多种形态,同一种事物的多种形态,动物分为鸡类,猪类.狗类例子 import abc class H2o(metaclass=abc.ABCMeta): def _ ...
Python之路(第十四篇)os模块
一.os模块 1.os.getcwd() 获取当前工作目录(当前工作目录默认都是当前文件所在的文件夹) import os print(os.getcwd()) 2.os.chdir(path) 改变 ...
Vue学习之路第十四篇：v-for指令中key的使用注意事项
1.学前准备: JavaScript中有一个方法:unshift() ,其作用是向数组的开头添加一个或更多元素,并返回新的长度.该方法的第一个参数将成为数组的新元素 0,如果还有第二个参数,它将成为新 ...
大数据之路week07--day05 （一个基于Hadoop的数据仓库建模工具之一 HIve）
什么是Hive? 我来一个短而精悍的总结(面试常问) 1:hive是基于hadoop的数据仓库建模工具之一(后面还有TEZ,Spark). 2:hive可以使用类sql方言,对存储在hdfs上的数据进 ...
Python之路【第十四篇】：AngularJS --暂无内容-待更新
Python之路[第十四篇]:AngularJS --暂无内容-待更新
解剖SQLSERVER 第十四篇 Vardecimals 存储格式揭秘（译）
解剖SQLSERVER 第十四篇 Vardecimals 存储格式揭秘(译) http://improve.dk/how-are-vardecimals-stored/ 在这篇文章,我将深入研究 ...
Spring Cloud第十四篇 | Api网关Zuul
本文是Spring Cloud专栏的第十四篇文章,了解前十三篇文章内容有助于更好的理解本文: Spring Cloud第一篇 | Spring Cloud前言及其常用组件介绍概览 Spring C ...

随机推荐

dolt 基于git协议的数据管理工具
dolt 基于git 协议提供了多版本,分支特性的数据管理工具,使用简单,同时也提供了类似github 的一个云服务安装下载地址 https://github.com/liquidata-inc/ ...
第02组 Alpha冲刺（3/4）
队名:十一个憨批组长博客作业博客组长黄智过去两天完成的任务:写博客,复习C语言 GitHub签入记录接下来的计划:构思游戏实现还剩下哪些任务:敲代码燃尽图遇到的困难:Alpha冲刺时间 ...
关于windows使用git警告LF will be replaced by CRLF
由于windows平台的换行符是CRLF,但是我们引用别人的类库可能是在unix平台开发的,那么代码中的换行符是LF,而git默认会做这个转换,所以在用git提交这些代码时会有警告:LF will b ...
64位下的InlineHook
目录 x64下手工HOOK的方法一丶HOOK的几种方法之远跳 1. 远跳不影响寄存器 + 15字节方法 2.远跳影响寄存器 + 12字节方法 3.影响寄存器,恢复寄存器进行跳转. 4. 常用 ...
「SDOI2014」旅行（信息学奥赛一本通 1564）（洛谷 3313）
题目描述 S国有N个城市,编号从1到N.城市间用N-1条双向道路连接,满足从一个城市出发可以到达其它所有城市.每个城市信仰不同的宗教,如飞天面条神教.隐形独角兽教.绝地教都是常见的信仰. 为了方便,我 ...
MySQL避免插入重复记录：唯一性约束
mysql在存在主键冲突或者唯一键冲突的情况下,根据插入策略不同,一般有以下三种避免方法.1.insert ignore2.replace into3.insert on duplicate ke ...
Eclipse 远程开发插件 RSE 及远程登录
Eclispe 使用私钥登录远程服务器生成私钥 Window --> Preference --> SSH2 --> Key Management --> Generate ...
eclipse右键空白、eclipse提示空白
右键选择菜单经常显示空白.要试好多次才会出来.eclipse无法启动.启动报错查看eclipse安装目录下的.metadata下的.log 里面会记录eclipse的报错信息一般显示空白问题都是因 ...
js获取form表单所有数据
代码如下: <script type="text/javascript"> // 获取指定form中的所有的<input><select>对象 ...
oc界面开发整理
oc界面开发整理 ViewController.h from test82 #import <UIKit/UIKit.h> @interface ViewController : UIVi ...

大数据之路【第十四篇】:数据挖掘--推荐算法(Mahout工具)

数据挖掘---推荐算法(Mahout工具)

一、简介

二、机器学习介绍

三、安装方法

3.1 下载Mahout

3.2 解压

四、配置环境变量

4.1 配置mahout环境变量

4.2 配置Mahout所需的Hadoop环境变量

五、验证是否成功

六、准备数据

七、训练

八、输出结果

大数据之路【第十四篇】:数据挖掘--推荐算法(Mahout工具)的更多相关文章

随机推荐

热门专题