Mahout推荐算法基础

转载自（http://www.geek521.com/?p=1423）

Mahout推荐算法分为以下几大类

GenericUserBasedRecommender

算法：

1.基于用户的相似度

2.相近的用户定义与数量

特点：

1.易于理解

2.用户数较少时计算速度快

GenericItemBasedRecommender

算法：

1.基于item的相似度

特点：

1.item较少时就算速度更快

2.当item的外部概念易于理解和获得是非常有用

SlopeOneRecommender（itemBased）

算法：

1基于SlopeOne算法（打分差异规则）

特点

速度快

需要预先计算

当item数目十分少了也很有效

需要限制diffs的存储数目否则内存增长太快

SVDRecommender （item-based）

算法

基于支持向量机（item的特征以向量表示，每个维度的评价值）

特点

需要预计算

推荐效果佳

KnnItemBasedRecommender （item-based）

类似于GenericUserBasedRecommender 中基于相似用户的实现（基于相似的item）

与GenericItemBasedRecommender 的主要区别是权重方式计算的不同（but, the weights are not the results of some similarity metric. Instead, the algorithm calculates the optimal set of weights to use between all pairs of items=>看的费劲）

TreeClusteringRecommender

算法

基于树形聚类的推荐算法

特点

用户数目少的时候非常合适

计算速度快

需要预先计算

基于模型的推荐算法、基于满意度得推荐算法（未实现）

Mahout中的数据输入

DataModel

以下包含

GenericDataModel

数据接口类基于内存

内部使用FastByIDMap 保存PreferenceArray，在PreferenceArray内保存用户->Item的评价值

GenericBooleanPrefDataModel.

基于内存的数据接口类

但是无用户偏好值

使用FastByIDMap<FastIDSet>为用户或者Item保存相关的Item或者用户。

FileDataModel

基于文件的数据接口内，内部使用GenericDataModel 保存实际的用户评价数据

增加了压缩文件（.zip .gz）等文件类型的支持

支持动态更新（更新文件文件名必须保存为一定的格式例如 foo.txt.gz 后续更新文件必须为foo.1.txt.gz）

查了以下代码好像是自定义时间间隔后可以更新，但是好像是全部更新（以后看代码）

JDBCDataModel

基于数据库的数据接口目前已经实现MySQLJDBCDataModel（支持MySQL 5.x）可以使用MysqlDataSource生成MySQLJDBCDataModel

注：0.7版本里面没有找到MySQLJDBCDataModel类多了一个MySQLJDBCIDMigrator

不知道关系如何

PlusAnonymousUserDataModel.

用于匿名用户推荐的数据类将全部匿名用户视为一个用户（内部包装其他的DataModel类型）

Mahout中的相似度计算

主要按照基于User，基于Item等

以内存方式保存相似度计算结果使用FastByIDMap<FastByIDMap<Double>>保存计算结果

CachingItemSimilarity

CachingUserSimilarity

以cache方式保存相似度计算结果防止每次请求是重复计算

内部使用 Cache<LongPair,Double> similarityCache保存相似度

与 GenericUserSimilarity用法和区别暂时看不懂

Mathout中实现的基于不同算法相似度度量的：

PearsonCorrelationSimilarity 皮尔逊距离

EuclideanDistanceSimilarity 欧几里德距离

CosineMeasureSimilarity 余弦距离（0.7变成了 UncenteredCosineSimilarity）

SpearmanCorrelationSimilarity 斯皮尔曼等级相关

TanimotoCoefficientSimilarity 谷本相关系数

LogLikelihoodSimilarity 一般好于TanimotoCoefficientSimilarity（不懂）

CityBlockSimilarity基于曼哈顿距离

相似度使用的典型用法

UserSimilarity similarity = new CachingUserSimilarity(

new SpearmanCorrelationSimilarity(model), model);

对缺失数据的处理

PreferenceInferrer 数据丢失或者数据太少时可能用到具体实现有 AveragingPreferenceInferrer 以平均值填充缺失数据

一般来说PreferenceInferrer除了增加计算量对推荐结果无任何影响（缺失值根据已有数据得出）所以一般只用于研究领域。

聚类的相似度

ClusterSimilarity

聚类的相似度用于两个不同的聚类之间的距离（类似坐标系内的距离）

目前聚类之间的距离计算只包含以下两个实现（暂时没有更好的实现算法）

NearestNeighborClusterSimilarity 计算两个聚类中所有项距离中的最小距离

FarthestNeighborClusterSimilarity 计算两个聚类中所有项距离中的最大距离

Mahout推荐算法基础的更多相关文章

Mahout推荐算法API详解
转载自:http://blog.fens.me/mahout-recommendation-api/ Hadoop家族系列文章,主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, ...
转】Mahout推荐算法API详解
原博文出自于: http://blog.fens.me/mahout-recommendation-api/ 感谢! Posted: Oct 21, 2013 Tags: itemCFknnMahou ...
[转]Mahout推荐算法API详解
Mahout推荐算法API详解 Hadoop家族系列文章,主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeepe ...
Mahout推荐算法之SlopOne
Mahout推荐算法之SlopOne 一. 算法原理有别于基于用户的协同过滤和基于item的协同过滤,SlopeOne采用简单的线性模型估计用户对item的评分.如下图,估计UserB对 ...
Mahout推荐算法API具体解释【一起学Mahout】
阅读导读: 1.mahout单机内存算法实现和分布式算法实现分别存在哪些问题? 2.算法评判标准有哪些? 3.什么会影响算法的评分? 1. Mahout推荐算法介绍 Mahout推荐算法,从数据处理能 ...
Mahout推荐算法ItemBased
Mahout推荐的ItemBased 一. 算法原理 (一) 基本的下面的例子,参见图评分矩阵:表现user,归类为item. 图(1) 该算法的原理: 1. 计算Item之间的相似度. ...
Mahout推荐算法之ItemBased
Mahout推荐之ItemBased 一. 算法原理 (一) 基本原理如下图评分矩阵所示:行为user,列为item. 图(1) 该算法的原理: 1. 计算Item之间的相似度. 2. ...
从源代码剖析Mahout推荐引擎
转载自:http://blog.fens.me/mahout-recommend-engine/ Hadoop家族系列文章,主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pi ...
转】从源代码剖析Mahout推荐引擎
原博文出自于: http://blog.fens.me/mahout-recommend-engine/ 感谢! 从源代码剖析Mahout推荐引擎 Hadoop家族系列文章,主要介绍Hadoop家族产 ...

随机推荐

NoSQL数据库的分布式模型
NoSQL数据库的分布式模型单一服务器在一个服务器完全能够胜任工作时就没必要考虑分布式,这样部署简单,维护也方便很多: 分片特点数据的各个部分存放在集群的不同服务器中: 比如按字母来划分:以a ...
.net 浏览器请求过程（图）
大致: 细节: (信息来源于传智播客教学视频)
CSS笔记（六）链接
参考:http://www.w3school.com.cn/css/css_link.asp 链接的四种状态 ① a:link - 普通的.未被访问的链接 ② a:visited - 用户已访问的链接 ...
20150203一些移动端H5小bug解决
都是一些我也不知道为什么会有的bug. 1. 在三星note2,小米2,页面加载后,页面有黑块. 那么提高被盖住的部分z-index. 2. iphone5 ,ios7.0.4,上文字显示不出那么就 ...
Scrum Meeting--Twelve(2015-11-3)
今日已完成任务和明日要做的任务姓名今日已完成任务今日时间明日计划完成任务估计用时董元财服务器修改与优化 5h 服务器修改与优化 4h 胡亚坤客户端数据更新 2h 客户端意见反馈收集 2 ...
让你快速搭建一个bootstrap页面
<!DOCTYPE HTML> <html lang="en-US"> <head> <meta charset="UTF-8& ...
Reactivecocoa初级使用
一直听闻ReactiveCocoa(以下简称RAC)的大名,但始终没有使用.最近时间比较空闲就决定研究一下. 在配置RAC时候遇到了一个小麻烦需要说明本人用cocoapods管理第三方框架,于是按照正 ...
9月java货车版速记
运算符的优先级java自带的方法正则表达式数组和二维数组:数组遍历,填充数组,数组排序,复制数组,数组查询数组算法:冒泡,选择,反转,快速类和对象:封装,继承,多态,this关键字,抽象类和接口重写和 ...
淘宝封装的一款ui 非常不错
好用的淘宝ui http://m.sui.taobao.org/demos/ 手机端访问地址
怎么进入BAT的研发部门？
怎么进入BAT的研发部门? ======================================剑指offer+leetcode+geeksforgeeks+编程之美+算法导论====秒杀BA ...

Mahout推荐算法基础

Mahout推荐算法基础的更多相关文章

随机推荐

热门专题