J由于 Spark MLlib 中协同过滤算法只提供了基于模型的协同过滤算法,在网上也没有找到有很好的实现,所以尝试自己实现基于物品的协同过滤算法(使用余弦相似度距离)

  算法介绍

  基于物品的协同过滤算法是目前业界应用最多的算法,亚马逊网、Netflix、Hulu、YouTube 都使用该算法作为推荐系统的基础算法。算法核心思想是根据用户对物品的历史行为记录,先计算物品之间的相似度,得到与物品最相似的 TopN 个物品,再利用用户对物品的历史行为,将用户访问过的物品的相似物品推荐给用户。也就是说,算法分为 2 步:

  计算物品之间的相似度

  为用户生成推荐列表

  计算物品之间的相似度

  计算物品的相似度有很多种算法,如余弦相似度、皮尔森相关度、欧式距离相似度、Tanimoto系数等,这里我们使用的是余弦相似度。

  假设有向量A(x1,x2,...xn)和向量B(y1,y2,...yn),A、B 之间的余弦相似度为:

  

  余弦相似度公式

  如果物品少这样计算没关系,但设想如有 100W 的物品,需要计算物品间的两两相似度,计算量大概是 100W x 100W,基本无法计算。

  虽然物品很多,但并不是每两个物品都有被相同的用户访问过, 也就是说,很多物品直接余弦相似度等于0,为了避免这些计算,我们引入倒排表来解决这一问题。

  假设有物品 Item1、Item2、Item3、Item4,用户 U1、U2、U3、U4:

  Item1 被 U1、U2 访问,偏好分分别是2、3,转化为向量是(2,3,0,0)

  Item2 被 U3、U4 访问,偏好分分别是1、4,转化为向量是(0,0,1,4)

  Item3 被 U2,U3 访问,偏好分分别是2、2,转化为向量是(0,2,2,0)

  Item4 只被 U3 访问,用户对其的偏好分是5,转化为向量是(0,0,5,0)

  先计算每个 Item 的模,即上图余弦相似度公式中的分母部分,缓存

  | Item1 | = √(22 + 32) = √13

  | Item2 | = √17

  | Item3 | = √8

  | Item4 | = 5

  转化为用户访问物品关系,将相同用户访问过的 Item 列出,即:

  U1:Item1(2)

  U2:Item1(3),Item3(2)

  U3:Item2(1),Item3(2),Item4(5)

  U4:Item2(5)

  针对同一用户,计算两两物品之间的相似度,输出物品对,分数,即:

  U1:输出空

  U2:输出 (Item1, Item3), 3x2=6

  U3:输出 (Item2, Item3), 2,(Item2, Item4), 5,(Item3, Item4), 10

  U4:输出空

  注意:可以将所有物品对 id 小的放前面,以减少后面一半的计算量

  将物品对作为 key 聚合,将分数相加,得到每个物品对的分数和,即上图余弦相似度公式中的分子部分。再从缓存中取出分母部分相除,即两两物品的相似度。如 Item2 和 Item4 的余弦相似度=5/(√17 x 5) = 1/√17

  如果要取物品的 TopK 相似的物品,可将得到的两两相似度结果(其实是半个相似度矩阵)扩展,然后按 key 聚合取 TopK 个。另外,实践表明针对同一物品,如果将相似度进行归一化 similaryi/similarymax 有助于提高最终推荐结果的精度。

  为用户生成推荐列表

  现在已经有每个物品的 TopK 个相似的物品信息,结合用户对物品的访问情况,将用户访问过的每个物品的相似物品取出,按相似度加权,排除已经访问过的物品,就可以得到用户的推荐列表,具体计算步骤如下:

  将物品,相似物品列表 与 物品,访问过该物品的用户列表 join,得到物品,(相似物品列表,访问过该物品的用户列表)

  交叉遍历相似物品列表和访问过该物品的用户列表,得到很多 用户,(物品,分数)

  按用户聚合,将相同物品的分数相加,按分数排序,取 TopK,即该用户的推荐列表

 

Spark 基于物品的协同过滤算法实现的更多相关文章

  1. 基于物品的协同过滤算法(ItemCF)

    最近在学习使用阿里云的推荐引擎时,在使用的过程中用到很多推荐算法,所以就研究了一下,这里主要介绍一种推荐算法—基于物品的协同过滤算法.ItemCF算法不是根据物品内容的属性计算物品之间的相似度,而是通 ...

  2. 案例:Spark基于用户的协同过滤算法

    https://mp.weixin.qq.com/s?__biz=MzA3MDY0NTMxOQ==&mid=2247484291&idx=1&sn=4599b4e31c2190 ...

  3. 基于物品的协同过滤推荐算法——读“Item-Based Collaborative Filtering Recommendation Algorithms” .

    ligh@local-host$ ssh-copy-id -i ~/.ssh/id_rsa.pub root@192.168.0.3 基于物品的协同过滤推荐算法--读"Item-Based ...

  4. Spark机器学习(11):协同过滤算法

    协同过滤(Collaborative Filtering,CF)算法是一种常用的推荐算法,它的思想就是找出相似的用户或产品,向用户推荐相似的物品,或者把物品推荐给相似的用户.怎样评价用户对商品的偏好? ...

  5. 推荐召回--基于物品的协同过滤:ItemCF

    目录 1. 前言 2. 原理&计算&改进 3. 总结 1. 前言 说完基于用户的协同过滤后,趁热打铁,我们来说说基于物品的协同过滤:"看了又看","买了又 ...

  6. 转】Mahout分步式程序开发 基于物品的协同过滤ItemCF

    原博文出自于: http://blog.fens.me/hadoop-mahout-mapreduce-itemcf/ 感谢! Posted: Oct 14, 2013 Tags: Hadoopite ...

  7. 基于物品的协同过滤item-CF 之电影推荐 python

    推荐算法有基于协同的Collaboration Filtering:包括 user Based和item Based:基于内容 : Content Based 协同过滤包括基于物品的协同过滤和基于用户 ...

  8. Music Recommendation System with User-based and Item-based Collaborative Filtering Technique(使用基于用户及基于物品的协同过滤技术的音乐推荐系统)【更新】

    摘要: 大数据催生了互联网,电子商务,也导致了信息过载.信息过载的问题可以由推荐系统来解决.推荐系统可以提供选择新产品(电影,音乐等)的建议.这篇论文介绍了一个音乐推荐系统,它会根据用户的历史行为和口 ...

  9. Mahout分步式程序开发 基于物品的协同过滤ItemCF

    http://blog.fens.me/hadoop-mahout-mapreduce-itemcf/ Hadoop家族系列文章,主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, ...

随机推荐

  1. MySQL之备份恢复

    1.备份的种类 逻辑备份:SQL语句的备份 物理备份:数据页备份 2.逻辑备份工具介绍 select xxxx from t1 into outfile '/tmp/redis.txt' mysql ...

  2. abap 中modify 的使用

    1.modify table itab from wa Transporting f1 f2 ... 表示表itab中符合工作区wa 中关键字的一条数据的 f1 f2字段会被wa中对应的字段值更新. ...

  3. Spark ML Pipeline简介

    Spark ML Pipeline基于DataFrame构建了一套High-level API,我们可以使用MLPipeline构建机器学习应用,它能够将一个机器学习应用的多个处理过程组织起来,通过在 ...

  4. Spark2.x AFTSurvivalRegression算法

    Spark2.0的机器学习算法比之前的改变最大的是2.0基本采用了dataframe来实现的,但之前的都是用的RDD,看官网说貌似在3.0的时候RDD就不用了!还有一个就是hiveContext和sq ...

  5. 二进制x&(x-1);

    求下面函数的返回值(微软) int func(x) {     int countx = 0;     while(x)     {           countx ++;           x ...

  6. sql中表级约束和列级约束

    sql中表级约束和列级约束,在SQL SERVER中, (1) 对于基本表的约束分为列约束和表约束约束是限制用户输入到表中的数据的值的范围,一般分为列级约束与表级约束.列级约束有六种:主键Primar ...

  7. 搭建virtualenv

    一.前言 1.什么是virtualenv? 在开发Python应用程序的时候,系统安装的Python3只有一个版本:3.4.所有第三方的包都会被pip安装到Python3的site-packages目 ...

  8. boost 智能指针intrusive_ptr

    boost::intrusive_ptr一种“侵入式”的引用计数指针,它实际并不提供引用计数功能,而是要求被存储的对象自己实现引用计数功能,并提供intrusive_ptr_add_ref和intru ...

  9. Selenium2.0 Webdriver 随笔

    Webdriver can't action the element when the element is out of view 1. Scroll to the element use Java ...

  10. Flask form(登录,注册)

    用户登录 from flask import Flask, render_template, request, redirect from wtforms import Form from wtfor ...