Mahout推荐算法基础
转载自(http://www.geek521.com/?p=1423)
Mahout推荐算法分为以下几大类
GenericUserBasedRecommender
算法:
1.基于用户的相似度
2.相近的用户定义与数量
特点:
1.易于理解
2.用户数较少时计算速度快
GenericItemBasedRecommender
算法:
1.基于item的相似度
特点:
1.item较少时就算速度更快
2.当item的外部概念易于理解和获得是非常有用
SlopeOneRecommender(itemBased)
算法:
1基于SlopeOne算法(打分差异规则)
特点
速度快
需要预先计算
当item数目十分少了也很有效
需要限制diffs的存储数目否则内存增长太快
SVDRecommender (item-based)
算法
基于支持向量机(item的特征以向量表示,每个维度的评价值)
特点
需要预计算
推荐效果佳
KnnItemBasedRecommender (item-based)
类似于GenericUserBasedRecommender 中基于相似用户的实现(基于相似的item)
与GenericItemBasedRecommender 的主要区别是权重方式计算的不同(but, the weights are not the results of some similarity metric. Instead, the algorithm calculates the optimal set of weights to use between all pairs of items=>看的费劲)
TreeClusteringRecommender
算法
基于树形聚类的推荐算法
特点
用户数目少的时候非常合适
计算速度快
需要预先计算
基于模型的推荐算法、基于满意度得推荐算法(未实现)
Mahout中的数据输入
DataModel
以下包含
GenericDataModel
数据接口类 基于内存
内部使用FastByIDMap 保存PreferenceArray,在PreferenceArray内保存用户->Item的评价值
GenericBooleanPrefDataModel.
基于内存的数据接口类
但是无用户偏好值
使用FastByIDMap<FastIDSet>为用户或者Item保存相关的Item或者用户。
FileDataModel
基于文件的数据接口内,内部使用GenericDataModel 保存实际的用户评价数据
增加了压缩文件(.zip .gz)等文件类型的支持
支持动态更新(更新文件文件名必须保存为一定的格式 例如 foo.txt.gz 后续更新文件必须为foo.1.txt.gz)
查了以下代码 好像是自定义时间间隔后可以更新,但是好像是全部更新(以后看代码)
JDBCDataModel
基于数据库的数据接口 目前已经实现MySQLJDBCDataModel(支持MySQL 5.x)可以使用MysqlDataSource生成MySQLJDBCDataModel
注:0.7版本里面没有找到MySQLJDBCDataModel类多了一个MySQLJDBCIDMigrator
不知道关系如何
PlusAnonymousUserDataModel.
用于匿名用户推荐的数据类 将全部匿名用户视为一个用户(内部包装其他的DataModel类型)
Mahout中的相似度计算
主要按照基于User,基于Item等
GenericItemSimilarity包含内部类 GenericItemSimilarity.ItemItemSimilarity
GenericUserSimilarity包含内部类 GenericUserSimilarity.UserUserSimilarity
以内存方式保存相似度计算结果 使用FastByIDMap<FastByIDMap<Double>>保存计算结果
以cache方式保存相似度计算结果防止每次请求是重复计算
内部使用 Cache<LongPair,Double> similarityCache保存相似度
与 GenericUserSimilarity用法和区别暂时看不懂
Mathout中实现的基于不同算法相似度度量的:
PearsonCorrelationSimilarity 皮尔逊距离
EuclideanDistanceSimilarity 欧几里德距离
CosineMeasureSimilarity 余弦距离(0.7变成了 UncenteredCosineSimilarity)
SpearmanCorrelationSimilarity 斯皮尔曼等级相关
TanimotoCoefficientSimilarity 谷本相关系数
LogLikelihoodSimilarity 一般好于TanimotoCoefficientSimilarity(不懂)
CityBlockSimilarity基于曼哈顿距离
相似度使用的典型用法
UserSimilarity similarity = new CachingUserSimilarity(
new SpearmanCorrelationSimilarity(model), model);
对缺失数据的处理
PreferenceInferrer 数据丢失或者数据太少时可能用到 具体实现有 AveragingPreferenceInferrer 以平均值填充缺失数据
一般来说PreferenceInferrer除了增加计算量对推荐结果无任何影响(缺失值根据已有数据得出)所以一般只用于研究领域。
聚类的相似度
ClusterSimilarity
聚类的相似度用于两个不同的聚类之间的距离(类似坐标系内的距离)
目前聚类之间的距离计算只包含以下两个实现(暂时没有更好的实现算法)
NearestNeighborClusterSimilarity 计算两个聚类中所有项距离中的最小距离
FarthestNeighborClusterSimilarity 计算两个聚类中所有项距离中的最大距离
Mahout推荐算法基础的更多相关文章
- Mahout推荐算法API详解
转载自:http://blog.fens.me/mahout-recommendation-api/ Hadoop家族系列文章,主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, ...
- 转】Mahout推荐算法API详解
原博文出自于: http://blog.fens.me/mahout-recommendation-api/ 感谢! Posted: Oct 21, 2013 Tags: itemCFknnMahou ...
- [转]Mahout推荐算法API详解
Mahout推荐算法API详解 Hadoop家族系列文章,主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeepe ...
- Mahout推荐算法之SlopOne
Mahout推荐算法之SlopOne 一. 算法原理 有别于基于用户的协同过滤和基于item的协同过滤,SlopeOne采用简单的线性模型估计用户对item的评分.如下图,估计UserB对 ...
- Mahout推荐算法API具体解释【一起学Mahout】
阅读导读: 1.mahout单机内存算法实现和分布式算法实现分别存在哪些问题? 2.算法评判标准有哪些? 3.什么会影响算法的评分? 1. Mahout推荐算法介绍 Mahout推荐算法,从数据处理能 ...
- Mahout推荐算法ItemBased
Mahout推荐的ItemBased 一. 算法原理 (一) 基本的 下面的例子,参见图评分矩阵:表现user,归类为item. 图(1) 该算法的原理: 1. 计算Item之间的相似度. ...
- Mahout推荐算法之ItemBased
Mahout推荐之ItemBased 一. 算法原理 (一) 基本原理 如下图评分矩阵所示:行为user,列为item. 图(1) 该算法的原理: 1. 计算Item之间的相似度. 2. ...
- 从源代码剖析Mahout推荐引擎
转载自:http://blog.fens.me/mahout-recommend-engine/ Hadoop家族系列文章,主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pi ...
- 转】从源代码剖析Mahout推荐引擎
原博文出自于: http://blog.fens.me/mahout-recommend-engine/ 感谢! 从源代码剖析Mahout推荐引擎 Hadoop家族系列文章,主要介绍Hadoop家族产 ...
随机推荐
- 【T-SQL系列】FOR XML PATH 语句的应用
DECLARE @TempTable TABLE ( UserID INT , UserName ) ); INSERT INTO @TempTable ( UserID, UserName ) , ...
- FTP常用故障代码注解
FTP错误列表 出处:http://bbs.enet.com.cn/UserControl?act=13&threadID 作者: |秒杀』| 详细的FTP错误列表 Restart marke ...
- 2013 Multi-University Training Contest 10
HDU-4698 Counting 题意:给定一个二维平面,其中x取值为1-N,y取值为1-M,现给定K个点,问至少包括K个点中的一个的满足要求的<Xmin, Xmax, Ymin, Ymax& ...
- javascript获取类元素
代码测试是ie5+: 原生javascript中筛选出含有指定类的元素: 思想:在指定范围里把所有的元素筛选出来,然后把里面的每个元素都遍历找出它们含有的所有类,然后逐个元素遍历它们各自的类,如果指定 ...
- JS获取URL中参数值(QueryString)的4种方法分享<转>
方法一:正则法 复制代码代码如下: function getQueryString(name) { var reg = new RegExp('(^|&)' + name + '=([^ ...
- mysql与mysqld
mysql是客户机/服务器的结构. mysql是客户端行工具,连接mysqld服务,执行sql命令,可认为客户端sdk mysqld 启动mysql数据库服务. 脚本启动mysql服务的命令是 net ...
- Java Ant build.xml详解
1,什么是antant是构建工具2,什么是构建概念到处可查到,形象来说,你要把代码从某个地方拿来,编译,再拷贝到某个地方去等等操作,当然不仅与此,但是主要用来干这个3,ant的好处跨平台 --因为 ...
- Eclipse NDK 配置
一.关于NDK:NDK全称:Native Development Kit. 1.NDK是一系列工具的集合. NDK提供了一系列的工具,帮助开发者快速开发C(或C++)的动态库,并能自动将so和java ...
- @synchronized (object)使用详解
synchronized关键字代表这个方法加锁,相当于不管哪一个线 程A每次运行到这个法时,都要检查有没有其它正在用这个方法的线程B(或者C D等),有的话要等正在使用这个方法的线程B(或者C D)运 ...
- Android Netty框架的使用
Netty框架的使用 1 TCP开发范例 发送地址---192.168.31.241 发送端口号---9223 发送数据 { "userid":"mm910@mbk.co ...