Mahout SlopOne

关于推荐引擎

如今的互联网中，无论是电子商务还是社交网络，对数据挖掘的需求都越来越大了，而推荐引擎正是数据挖掘完美体现；通过分析用户历史行为，将他可能喜欢内容推送给他，能产生相当好的用户体验，这就是推荐引擎。

Mahout中Slope one的设计思路以及代码实现

先简单介绍下，Mahout是Apache的一个开源项目，由Lucene项目组和Hadoop项目组分离出来，它实现了推荐引擎中的大部分经典算法，有兴趣的朋友可以研究研究

首先我们需要基础数据，即用户对产品的评分，这部分数据可以来自数据库也可以来自文件，Mahout中对此设计了一个简单的数据库表，SQL如下：

`1`	`CREATETABLE` `taste_preferences (`

`2`	`user_idBIGINT` `NOT` `NULL,`

`3`	`item_idBIGINT` `NOT` `NULL,`

`4`	`preferenceFLOAT` `NOT` `NULL,`

`5`	`PRIMARYKEY` `(user_id, item_id),`

`6`	`INDEX(user_id),`

`7`	`INDEX(item_id)`

8 )

其次，Mahout在启动时，会对这部分数据进行处理，算出每对产品间的平均评分差值，已Map<ItemId, Map<ItemId, Average>>的数据结构存放在内存中（当然这帮牛人没有用Java中Map的实现，自己写了一个叫FastByIDMap的类）。处理基础数据的计算代码如下：

1. 首先获取所有评过分的用户id （7，而dataModel就是用于存放我上面提到的基础）

2. 然后依次计算每个用户评分过的产品间的平均评分差值（9，具体在processOneUser中实现）

`01`	`privatevoid` `buildAverageDiffs()` `throws` `TasteException {`

`02`	`log.info("Building average diffs...");`

03 try{

`04`	`buildAverageDiffsLock.writeLock().lock();`

`05`	`averageDiffs.clear();`

`06`	`longaverageCount = 0L;`

`07`	`LongPrimitiveIterator it = dataModel.getUserIDs();`

`08`	`while(it.hasNext()) {`

`09`	`averageCount = processOneUser(averageCount, it.nextLong());`

10 }

11

`12`	`pruneInconsequentialDiffs();`

`13`	`updateAllRecommendableItems();`

14

`15`	`}finally` `{`

`16`	`buildAverageDiffsLock.writeLock().unlock();`

17 }

18 }

3. 首先取出该用户所有评分过的项目和评分值（4）

4. 依次计算这些项目间的平均评分差值（6 ~ 26），并存储在内存中。

`01`	`privatelong` `processOneUser(longaverageCount,long` `userID)` `throws` `TasteException {`

`02`	`log.debug("Processing prefs for user {}", userID);`

`03`	`// Save off prefs for the life of this loop iteration`

`04`	`PreferenceArray userPreferences = dataModel.getPreferencesFromUser(userID);`

`05`	`intlength = userPreferences.length();`

`06`	`for(int` `i =` `0; i < length -1; i++) {`

`07`	`floatprefAValue = userPreferences.getValue(i);`

`08`	`longitemIDA = userPreferences.getItemID(i);`

`09`	`FastByIDMap<RunningAverage> aMap = averageDiffs.get(itemIDA);`

`10`	`if(aMap ==null) {`

`11`	`aMap =new` `FastByIDMap<RunningAverage>();`

`12`	`averageDiffs.put(itemIDA, aMap);`

13 }

`14`	`for(int` `j = i +` `1; j < length; j++) {`

`15`	`// This is a performance-critical block`

`16`	`longitemIDB = userPreferences.getItemID(j);`

`17`	`RunningAverage average = aMap.get(itemIDB);`

`18`	`if(average ==null` `&& averageCount < maxEntries) {`

`19`	`average = buildRunningAverage();`

`20`	`aMap.put(itemIDB, average);`

`21`	`averageCount++;`

22 }

`23`	`if(average !=null) {`

`24`	`average.addDatum(userPreferences.getValue(j) - prefAValue);`

25 }

26 }

`27`	`RunningAverage itemAverage = averageItemPref.get(itemIDA);`

`28`	`if(itemAverage ==null) {`

`29`	`itemAverage = buildRunningAverage();`

`30`	`averageItemPref.put(itemIDA, itemAverage);`

31 }

`32`	`itemAverage.addDatum(prefAValue);`

33 }

`34`	`returnaverageCount;`

35 }

以上是启动时做的事，而当某个用户来了，需要为他计算推荐列表时，就快速许多了（是一个空间换时间的思想），下面的方法是某一个用户对其某一个他未评分过的产品的推荐值，参数UserId：用户ID；ItemId：为评分的产品ID

1. 再次取出该用户评分过的所有产品（4）：PreferenceArray prefs中保存着ItemID和该用户对它的评分

2. 取得上一步得到的prefs中的所有物品与itemID代表的物品之间的平均评分差值（5），其中DiffStoragediffStorage

对象中存放中每对产品间的平均评分差值（而上面启动时的计算都是在MySQLJDBCDiffStorage中实现的，计算后的

值也存于其中，它是DiffStorage接口的实现），所以取得的流程很简单，这里不贴代码了

3. 最后就是依次推算评分过的产品到未评分的产品的一个推荐值 = 平均评分差值（两者间的） + 已评分的分值（用

户对其中一个评分），然后将这些推荐值取个平均数（7 ~ 37），其中11行判断是否要考虑权重。

`01`	`privatefloat` `doEstimatePreference(longuserID,long` `itemID)` `throws` `TasteException {`

`02`	`doublecount =0.0;`

`03`	`doubletotalPreference =0.0;`

`04`	`PreferenceArray prefs = getDataModel().getPreferencesFromUser(userID);`

`05`	`RunningAverage[] averages = diffStorage.getDiffs(userID, itemID, prefs);`

`06`	`intsize = prefs.length();`

`07`	`for(int` `i =` `0; i < size; i++) {`

`08`	`RunningAverage averageDiff = averages[i];`

`09`	`if(averageDiff !=null) {`

`10`	`doubleaverageDiffValue = averageDiff.getAverage();`

`11`	`if(weighted) {`

`12`	`doubleweight = averageDiff.getCount();`

`13`	`if(stdDevWeighted) {`

`14`	`doublestdev = ((RunningAverageAndStdDev) averageDiff).getStandardDeviation();`

`15`	`if(!Double.isNaN(stdev)) {`

`16`	`weight /=1.0` `+ stdev;`

17 }

`18`	`// If stdev is NaN, then it is because count is 1. Because we're weighting by count,`

`19`	`// the weight is already relatively low. We effectively assume stdev is 0.0 here and`

`20`	`// that is reasonable enough. Otherwise, dividing by NaN would yield a weight of NaN`

`21`	`// and disqualify this pref entirely`

`22`	`// (Thanks Daemmon)`

23 }

`24`	`totalPreference += weight * (prefs.getValue(i) + averageDiffValue);`

`25`	`count += weight;`

`26`	`}else` `{`

`27`	`totalPreference += prefs.getValue(i) + averageDiffValue;`

`28`	`count +=1.0;`

29 }

30 }

31 }

`32`	`if(count <=0.0) {`

`33`	`RunningAverage itemAverage = diffStorage.getAverageItemPref(itemID);`

`34`	`returnitemAverage ==null` `? Float.NaN : (float) itemAverage.getAverage();`

`35`	`}else` `{`

`36`	`return(float) (totalPreference / count);`

37 }

38 }

Slope one 的源码已分析完毕。

其实Slope one推荐算法很流行，被很多网站使用，包括一些大型网站；我个人认为最主要的原因是它具备如下优势：

1. 实现简单并且易于维护。

2. 响应即时（只要用户做出一次评分，它就能有效推荐，根据上面代码很容易理解），并且用户的新增评分对推荐数据的改变量较小，应为在内存中存储的是物品间的平均差值，新增的差值只需累加一下，切范围是用户评分过的产品。

3. 由于是基于项目的协同过滤算法，适用于当下火热的电子商务网站，原因电子商务网站用户量在几十万到上百万，产品量相对于之则要小得多，所以对产品归类从性能上讲很高效。

分析至此，祝大家周末愉快。

参考资料：

1. Slope one http://zh.wikipedia.org/wiki/Slope_one

2. 探索推荐引擎内部的秘密，第 2 部分: 深入推荐引擎相关算法 - 协同过滤

http://www.ibm.com/developerworks/cn/web/1103_zhaoct_recommstudy2/index.html

Mahout SlopOne的更多相关文章

Mahout推荐算法之SlopOne
Mahout推荐算法之SlopOne 一. 算法原理有别于基于用户的协同过滤和基于item的协同过滤,SlopeOne采用简单的线性模型估计用户对item的评分.如下图,估计UserB对 ...
mahout入门指南之基于mahout的itembased算法
基于mahout的itembased算法事实上mahout分布式上仅仅是实现了部分算法.比方推荐算法中Item-based和slopone都有hadoop实现和单机版实现,User-based没有分 ...
[Mahout] 完整部署过程
概述 Mahout底层依赖Hadoop,部署Mahout过程中最困难的就是Hadoop的部署本文假设用户本身没有进行Hadoop的部署,记述部署Mahout的过程 ...
Mahout之数据承载
转载自:https://www.douban.com/note/204399134/ 推荐数据的处理是大规模的,在集群环境下一次要处理的数据可能是数GB,所以Mahout针对推荐数据进行了优化. Pr ...
Mahout推荐算法API详解
转载自:http://blog.fens.me/mahout-recommendation-api/ Hadoop家族系列文章,主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, ...
从源代码剖析Mahout推荐引擎
转载自:http://blog.fens.me/mahout-recommend-engine/ Hadoop家族系列文章,主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pi ...
mahout 安装测试
1 下载在http://archive.apache.org/dist/mahout下载相应版本的mahout 版本,获取官网查看http://mahout.apache.org 相关的信息
Hadoop里的数据挖掘应用-Mahout——学习笔记<三>
之前有幸在MOOC学院抽中小象学院hadoop体验课. 这是小象学院hadoop2.X的笔记由于平时对数据挖掘做的比较多,所以优先看Mahout方向视频. Mahout有很好的扩展性与容错性(基于H ...
初学Mahout测试kmeans算法
预备工作: 启动hadoop集群准备数据 Synthetic_control.data数据集下载地址http://archive.ics.uci.edu/ml/databases/synthetic ...

随机推荐

（一二九）获取文件的MineType、利用SSZipArchive进行压缩解压
MineType 简介文件在网络上以二进制流的方式传播,为了区分不同的文件类型,用MineType来标明. 为什么要获取文件的拓展名较短,比较好记,但是MineType是很长的,比如docx拓展名 ...
一套强大的vim配置文件+详细注释
phpchina折腾王独家配置,灰常牛叉的一套vim配置,另附有详细注释,自己折腾vim的时候可以参照其中的大部分设置进行一些个性化定制."是否兼容VI,compatible为兼容,noco ...
Xcode7.2中如何添加一个Empty Application模板
大熊猫猪·侯佩原创或翻译作品.欢迎转载,转载请注明出处. 如果觉得写的不好请多提意见,如果觉得不错请多多支持点赞.谢谢! hopy ;) Xcode 6.0正式版之后已经没有所谓的Empty Appl ...
Citrix 桌面虚拟化解决方案与VMware桌面虚拟化解决方案对比
通过 XenDesktop 和 FlexCast为各种场景交付虚拟桌面企业桌面面临的问题为每个用户提供安全高效的桌面环境是几乎所有公司或组织的基本要求.如果用户无法使用他们的桌面或应用程序,公司就 ...
iOS中语音识别功能／语音转文字教程详解韩俊强的博客
每日更新关注:http://weibo.com/hanjunqiang 新浪微博原文地址:http://blog.csdn.net/qq_31810357/article/details/5111 ...
Win 10 下 android studio显示 Intel haxm无法安装，以及VT-X和hyper-x的冲突问题
我的电脑是神舟战神k650c i7 D4,处理器是Intel core i7 4710-MQ,系统是win 10的我心血来潮想学习一下安卓开发,就首先安装了android s ...
Android初级教程短信防火墙
如果你有女神,而且有情敌的话,你看到这篇文章会有一种窃喜的感觉. 需求:对情敌的号码进行拦截,让女神手机永远收不到它的号码. 首先定义一个广播接收者类: package com.example.sms ...
C语言--static修饰变量
Static在C语言里面有两个作用,第一个是修饰变量,第二个是修饰函数. 1.Static修饰变量按照作用范围的不同,变量分为局部变量和全局变量.如果用static修饰变量,不论这个变量是全局的还是 ...
Android初级教程人品计算器
先看布局: main_activity.xml <LinearLayout xmlns:android="http://schemas.android.com/apk/res/andr ...
LocalBroadcastManager—创建更高效、更安全的广播
前言在写Android应用时候,有时候或多或少的需要运用广播来解决某些需求,我们知道广播有一个特性,就是使用sendBroadcast(intent);发送广播时,手机内所有注册了Broadcast ...

	书 1	书 2	书 3
用户A	5	3	2
用户B	3	4	未评分
用户C	未评分	2	5

Mahout SlopOne

关于推荐引擎

推荐算法Slope one的原理

Mahout中Slope one的设计思路以及代码实现

Mahout SlopOne的更多相关文章

随机推荐

热门专题