Mahout使用(一)

1.HelloMahout.java
2.DistanceTest.java
3.MahoutDemo.java

1.HelloMahout.java

 package cn.crxy.mahout;

 import java.io.File;

 import java.util.List;

 import org.apache.log4j.Logger;

 import org.apache.mahout.cf.taste.impl.model.file.FileDataModel;

 import org.apache.mahout.cf.taste.impl.neighborhood.NearestNUserNeighborhood;

 import org.apache.mahout.cf.taste.impl.recommender.GenericUserBasedRecommender;

 import org.apache.mahout.cf.taste.impl.similarity.PearsonCorrelationSimilarity;

 import org.apache.mahout.cf.taste.model.DataModel;

 import org.apache.mahout.cf.taste.neighborhood.UserNeighborhood;

 import org.apache.mahout.cf.taste.recommender.RecommendedItem;

 import org.apache.mahout.cf.taste.recommender.Recommender;

 import org.apache.mahout.cf.taste.similarity.UserSimilarity;

 public class HelloMahout {

     public static void main(String[] args) {

         Logger logger=Logger.getLogger(HelloMahout.class);

         try {

             //读取用户评分数据    封装成一个model

             DataModel model = new FileDataModel(new File("F:\\360Downloads\\超人学院\\第14期视频\\2016-09-12【mahout】\\样本数据\\info.csv"));

             // 根据相似度找出对应的好朋友的标准     物以类聚,人以群分

             UserSimilarity userSimilarity = new PearsonCorrelationSimilarity(model);

             // 邻域 选择两个好朋友帮我推荐

             UserNeighborhood userNeighborhood = new NearestNUserNeighborhood(2,userSimilarity, model);

             // 构建推荐引擎

             Recommender recommender = new GenericUserBasedRecommender(model,userNeighborhood, userSimilarity);

             // 进行推荐

             List<RecommendedItem> recommend = recommender.recommend(1, 5);

             for (RecommendedItem item : recommend) {

                 logger.info(item);

             }

         } catch (Exception e) {

             logger.error(e.getMessage());

         }

     }

 }

2.DistanceTest.java

 package cn.crxy.mahout;

 import org.junit.Before;

 import org.junit.Test;

 public class DistanceTest {

     //    水果维度依次为：苹果、梨、桃子、栗子、香蕉、橘子

     //    小明：5,4,2,1,5,5

     //    小丽：5,3,1,2,1,1

     //    小王：5,3,4,1,4,3

     private int[] a;

     private int[] b;

     private int[] c;

     @Before

     public void initData(){

         a=new int[]{5,4,2,1,5,5};

         b=new int[]{5,3,1,2,1,1};

         c=new int[]{5,3,4,1,4,3};

     }

     @Test

     public void Distance(){

 //        a-b:5.916079783099616

 //        a-c:3.1622776601683795

 //        c-b:4.795831523312719

         System.out.println(String.format("a-b:%s", 1.0/(1.0+Man(a, b))));

         System.out.println(String.format("a-c:%s", 1.0/(1.0+Man(a, c))));

         System.out.println(String.format("c-b:%s", 1.0/(1.0+Man(c, b))));

 //        a-b:0.08333333333333333

 //        a-c:0.14285714285714285

 //        c-b:0.1

     }

     //欧式距离

     private double ErluD(int[] a_array,int[] b_array){

         double result=0;

         for (int i = 0; i < a_array.length; i++) {

             result+=Math.pow(a_array[i]-b_array[i],2);

         }

         return Math.sqrt(result);

     }

     //曼哈顿距离

     private double Man(int[] a_array,int[] b_array){

         double result=0;

         for (int i = 0; i < a_array.length; i++) {

             result+=Math.abs(a_array[i]-b_array[i]);

         }

         return result;

     }

     //min式距离

     private double Min(int[] a_array,int[] b_array,int p){

         double result=0;

         for (int i = 0; i < a_array.length; i++) {

             result+=Math.pow(Math.abs(a_array[i]-b_array[i]),p);

         }

         return Math.pow(result,1.0/p);

     }

 }

3.MahoutDemo.java

 package cn.crxy.mahout;

 import java.io.File;

 import java.util.List;

 import org.apache.mahout.cf.taste.impl.common.FastByIDMap;

 import org.apache.mahout.cf.taste.impl.common.FastIDSet;

 import org.apache.mahout.cf.taste.impl.model.GenericPreference;

 import org.apache.mahout.cf.taste.impl.model.GenericUserPreferenceArray;

 import org.apache.mahout.cf.taste.impl.model.file.FileDataModel;

 import org.apache.mahout.cf.taste.impl.neighborhood.NearestNUserNeighborhood;

 import org.apache.mahout.cf.taste.impl.neighborhood.ThresholdUserNeighborhood;

 import org.apache.mahout.cf.taste.impl.recommender.GenericBooleanPrefItemBasedRecommender;

 import org.apache.mahout.cf.taste.impl.recommender.GenericItemBasedRecommender;

 import org.apache.mahout.cf.taste.impl.recommender.GenericUserBasedRecommender;

 import org.apache.mahout.cf.taste.impl.similarity.CachingItemSimilarity;

 import org.apache.mahout.cf.taste.impl.similarity.CachingUserSimilarity;

 import org.apache.mahout.cf.taste.impl.similarity.PearsonCorrelationSimilarity;

 import org.apache.mahout.cf.taste.impl.similarity.TanimotoCoefficientSimilarity;

 import org.apache.mahout.cf.taste.model.DataModel;

 import org.apache.mahout.cf.taste.model.PreferenceArray;

 import org.apache.mahout.cf.taste.neighborhood.UserNeighborhood;

 import org.apache.mahout.cf.taste.recommender.RecommendedItem;

 import org.apache.mahout.cf.taste.recommender.Recommender;

 import org.apache.mahout.cf.taste.similarity.ItemSimilarity;

 import org.apache.mahout.cf.taste.similarity.UserSimilarity;

 import org.junit.Before;

 import org.junit.Ignore;

 import org.junit.Test;

 public class MahoutDemo {

     //组装datamodel

     // userid itemid score

     // 101 102 103 104

     // 1(5,4,2,)

     // 2(,2,4,1)

     // 3(4,3,1,)

     DataModel dataModel;

     @Before

     public void initData() throws Exception{

         //每一个用户的喜好列表 key：用户id  value：该用户的偏好列表

         FastByIDMap<PreferenceArray> data=new FastByIDMap<PreferenceArray>();

         //组装第一个用户 偏好列表

         PreferenceArray array1=new GenericUserPreferenceArray(3);

         //PreferenceArray index 指：偏好列表的index 序号。

         array1.setUserID(0, 1);

         array1.setItemID(0, 101);

         array1.setValue(0, 5);

         array1.setUserID(1, 1);

         array1.setItemID(1, 102);

         array1.setValue(1, 4);

         array1.setUserID(2, 1);

         array1.setItemID(2, 103);

         array1.setValue(2, 2);

         data.put(1, array1);

         //组装第二个喜好

         PreferenceArray array2=new GenericUserPreferenceArray(3);

         //2(,2,4,1)

         array2.set(0, new GenericPreference(2,102,2));

         array2.set(1, new GenericPreference(2,103,4));

         array2.set(2, new GenericPreference(2,104,1));

         data.put(2, array2);

         //组装第三个喜好

         PreferenceArray array3=new GenericUserPreferenceArray(3);

         //3(4,3,1,)

         array3.set(0, new GenericPreference(3,101,4));

         array3.set(1, new GenericPreference(3,102,3));

         array3.set(2, new GenericPreference(3,103,1));

         data.put(3, array3);

         //dataModel=new GenericDataModel(data);

 //        dataModel=new GenericBooleanPrefDataModel(userData);

 //        System.out.println(dataModel.getPreferenceValue(1, 102));//获得1用户对102的评分

 //        System.out.println(dataModel.getItemIDsFromUser(1));

 //        System.out.println(dataModel.getUserIDs());

         //1  101 102 103

         //2 102 103

         // key为userid value:物品的集合 set

         FastByIDMap<FastIDSet> userData=new FastByIDMap<FastIDSet>();

         FastIDSet userSet1=new FastIDSet(3);

         userSet1.add(101);

         userSet1.add(102);

         userSet1.add(103);

         userData.put(1,userSet1);

         FastIDSet userSet2=new FastIDSet(2);

         userSet2.add(102);

         userSet2.add(103);

         userData.put(2,userSet2);

         //无偏好的构建

 //        dataModel=new GenericBooleanPrefDataModel(userData);

         //读取文件 有偏好的

         dataModel=new FileDataModel(new File("F:\\360Downloads\\超人学院\\第14期视频\\2016-09-12【mahout】\\样本数据\\info.csv"));

         //读取文件 无偏好的 无偏好的数据只有用户和其关联的商品 没有对应商品的评分

 //        dataModel=new FileDataModel(new File("F:\\360Downloads\\超人学院\\第14期视频\\2016-09-12【mahout】\\样本数据\\ubool.data"));

 //        对于无偏好数据：getvalue：如果存在记录则是1.0；否则为null。

 //        System.out.println(dataModel.getPreferenceValue(1, 103));

 //        System.out.println(dataModel.getItemIDsFromUser(1));

 //        System.out.println(dataModel.getUserIDs());

     }

     @Ignore

     public void testUserSimi() throws Exception{

         //利用model和相似度函数 计算用户相似度

 //        UserSimilarity userSimilarity=new TanimotoCoefficientSimilarity(dataModel);

         UserSimilarity userSimilarity=new PearsonCorrelationSimilarity(dataModel);

         userSimilarity=new CachingUserSimilarity(userSimilarity, dataModel);

         //查询用户之间的相似度  0.9999999999999998    0.944911182523068

         //如果使用CachingUserSimilarity userSimilarity(1,5) 第二次不会再次计算了

         System.out.println(userSimilarity.userSimilarity(1, 5));

         System.out.println(userSimilarity.userSimilarity(1, 5));

     }

     @Ignore

     public void testItemSimi() throws Exception{

         //利用model和相似度函数 计算物品相似度

         ItemSimilarity itemSimilarity=new PearsonCorrelationSimilarity(dataModel);

         itemSimilarity =new CachingItemSimilarity(itemSimilarity,dataModel);

         //查询物品之间的相似度 0.9449111825230729

         System.out.println(itemSimilarity.itemSimilarity(101, 102));

     }

     @Test

     public void testuserNeighborhood() throws Exception{

         //相似度   有相似度才能算邻居是谁

         UserSimilarity userSimilarity=new PearsonCorrelationSimilarity(dataModel);

         //1.固定数目的邻居  如果取邻居 只取前三个

         UserNeighborhood userNeighborhood=new NearestNUserNeighborhood(3,userSimilarity,dataModel);

         long[] userNeighborhoods = userNeighborhood.getUserNeighborhood(1);//为1用户取得用户

         for (long l : userNeighborhoods) {

             System.out.println(l+"NearestNUserNeighborhoodsimi---"+userSimilarity.userSimilarity(1, l));

         }

 //        4NearestNUserNeighborhoodsimi---0.9999999999999998

 //        5NearestNUserNeighborhoodsimi---0.944911182523068

 //        2NearestNUserNeighborhoodsimi---   -0.7642652566278799这个是负0.7

         //2.固定阈值的邻居  只要0.8以上的

         userNeighborhood=new ThresholdUserNeighborhood(0.7,userSimilarity,dataModel);

         long[] userNeighborhoodsnew = userNeighborhood.getUserNeighborhood(1);

         System.out.println(userSimilarity.userSimilarity(1, 2)); //查看1和2的相似度

         for (long l : userNeighborhoodsnew) {

             System.out.println(l+"ThresholdUserNeighborhoodsimi---"+userSimilarity.userSimilarity(1, l));

         }

     }

     @Test

     public void testItemCmd() throws Exception{

         //1.基于物品的有偏好的推荐   基于物品的不需要邻居

 //        ItemSimilarity itemSimilarity=new PearsonCorrelationSimilarity(dataModel);

 //        Recommender recommender=new GenericItemBasedRecommender(dataModel,itemSimilarity);

         //2.基于物品的无偏好推荐

         ItemSimilarity itemSimilarity=new TanimotoCoefficientSimilarity(dataModel);

         Recommender recommender=new GenericBooleanPrefItemBasedRecommender(dataModel,itemSimilarity);

         List<RecommendedItem> recommend = recommender.recommend(1, 3);//给用户1推荐3个.

         for (RecommendedItem recommendedItem : recommend) {

             System.out.println(recommendedItem);

             //1.基于物品的有偏好的推荐RecommendedItem[item:104, value:5.0]其他的推荐不出来了....所以只推荐出了1个

             //2.基于物品的无偏好的推荐

             //RecommendedItem[item:104, value:1.8]

             //RecommendedItem[item:106, value:1.15]

             //RecommendedItem[item:105, value:0.85]

         }

     }

     @Test

     public void testUserCmd() throws Exception{

         //1.基于用户的有偏好的推荐

         //UserSimilarity userSimilarity=new PearsonCorrelationSimilarity(dataModel);

         //2.基于用户的无偏好的推荐

         UserSimilarity userSimilarity=new TanimotoCoefficientSimilarity(dataModel);

         UserNeighborhood userNeighborhood=new NearestNUserNeighborhood(3,userSimilarity,dataModel);//Top 3

         //构建推荐对象

         Recommender recommender=new GenericUserBasedRecommender(dataModel,userNeighborhood,userSimilarity);

         List<RecommendedItem> recommend = recommender.recommend(1, 3);

         for (RecommendedItem recommendedItem : recommend) {

             System.out.println(recommendedItem);

             //1.基于用户的有偏好推荐

             //RecommendedItem[item:104, value:5.0]

             //RecommendedItem[item:106, value:4.0]

             //2.基于用户的无偏好推荐

             //RecommendedItem[item:106, value:4.0]

             //RecommendedItem[item:104, value:3.2121212]

         }

     }

 }

Mahout使用(一)的更多相关文章

[Mahout] 完整部署过程
概述 Mahout底层依赖Hadoop,部署Mahout过程中最困难的就是Hadoop的部署本文假设用户本身没有进行Hadoop的部署,记述部署Mahout的过程 ...
Mahout之数据承载
转载自:https://www.douban.com/note/204399134/ 推荐数据的处理是大规模的,在集群环境下一次要处理的数据可能是数GB,所以Mahout针对推荐数据进行了优化. Pr ...
Mahout推荐算法API详解
转载自:http://blog.fens.me/mahout-recommendation-api/ Hadoop家族系列文章,主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, ...
从源代码剖析Mahout推荐引擎
转载自:http://blog.fens.me/mahout-recommend-engine/ Hadoop家族系列文章,主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pi ...
mahout 安装测试
1 下载在http://archive.apache.org/dist/mahout下载相应版本的mahout 版本,获取官网查看http://mahout.apache.org 相关的信息
Hadoop里的数据挖掘应用-Mahout——学习笔记<三>
之前有幸在MOOC学院抽中小象学院hadoop体验课. 这是小象学院hadoop2.X的笔记由于平时对数据挖掘做的比较多,所以优先看Mahout方向视频. Mahout有很好的扩展性与容错性(基于H ...
初学Mahout测试kmeans算法
预备工作: 启动hadoop集群准备数据 Synthetic_control.data数据集下载地址http://archive.ics.uci.edu/ml/databases/synthetic ...
Mahout安装与配置
一.安装mahout 1.下载mahout(mahout-distribution-0.9.tar.gz) http://pan.baidu.com/s/1kUtOMQb 2.解压至指定目录我平时都 ...
Mahout 的安装
Mahout 的安装 Mahout是Hadoop的一种高级应用.运行Mahout需要提前安装好Hadoop,Mahout只在Hadoop集群的NameNode节点上安装一个即可,其他数据节点上不需要安 ...
Mahout源码分析之 -- 文档向量化TF-IDF
fesh个人实践,欢迎经验交流!Blog地址:http://www.cnblogs.com/fesh/p/3775429.html Mahout之SparseVectorsFromSequenceFi ...

随机推荐

js 上传文件
<input id="file_Up" name="file_Up" type="file" onchange="getFi ...
BZOJ 3259 [Sdoi2014]数表 (莫比乌斯反演 + 树状数组)
3529: [Sdoi2014]数表 Time Limit: 10 Sec Memory Limit: 512 MBSubmit: 2321 Solved: 1187[Submit][Status ...
OOP中的六种关系以及和JDK或框架中源码进行匹配对应
前言:这六种关系里:泛化=实现>组合>聚合>关联>依赖:其中组合-聚合-关联这三个如果只是给出一段代码是无法判断具体是什么关系的,需要配合语义或说业务场景来能进行区分(和设计模 ...
highcharts x轴中文刻度太长换行
xAxis: { type: 'category', title:null, gridLineWidth: 1, lineColor: "#50ae93", labels: { s ...
matlab画无向图，基于坐标的无向图联系作者
%函数名netplot %使用方法输入请help netplot %无返回值 %函数只能处理无向图 %作者:tiandsp %最后修改: function netplot(A,flag) %调用方法输 ...
HTML中JavaScript调用方法
我在写web页面的时候,经常用js实现某些功能,我用的方法有两种: 1.点击调用JavaScript: <button onclick="loadXMLDoc()">b ...
2.2.1synchronized方法的弊端
缺陷:用关键字synchronized声明方法是有弊端的,譬如A线程调用同步方法执行一个长时间的任务,那么B线程则必须等待较长的时间, 解决方法:使用synchronized同步语句块 package ...
Android多点触控手势基础
处理多点触控手势多点触控就是同时把一根以上的手指放在屏幕上. 再继续往下以前需要补充一些名词: 触控手势:就是把一根或者几根手指放在屏幕上做各种动作,其中包括保留一根手指的前提下,拿起或者放下其余的 ...
二分搜素——（lower_bound and upper_bound)
因为每个人二分的风格不同,所以在学习二分的时候总是被他们的风格搞晕.有的人二分风格是左闭右开也就是[L,R),有的人是左开右闭的(L,R]. 二分的最基本条件是,二分的序列需要有单调性. 下面介绍的时 ...
DataStage 的优化原则
DataStage Job优化指导原则之一:算法的优化. 任何程序的优化,第一点首先都是算法的优化.当然这一点并不仅仅局限于计算机程序的优化,实际生活中也处处可以体现这一点.条条大路通罗 ...

Mahout使用(一)

Mahout使用(一)的更多相关文章

随机推荐

热门专题