数据集: https://grouplens.org/datasets/movielens/ ml-latest-small 协同过滤算法理论基础 https://blog.csdn.net/u012995888/article/details/79077681 相似度计算主要有三个经典算法:余弦定理相似性度量.欧氏距离相似度度量和杰卡德相似性度量.下面分别进行说明: 余弦定理相似性度量       三角形余弦定理公式:,由该公式可知角A越小,bc两边越近.当A为0度时,bc两边完全重合. 当b…
//加载需要的包 import org.apache.spark.rdd._ import org.apache.spark.mllib.recommendation.{ALS, Rating, MatrixFactorizationModel} //读取数据 val ratings = sc.textFile("D:/BaiduYunDownload/machine-learning/movielens/medium/ratings.dat").map { line => va…
协同过滤包括基于物品的协同过滤和基于用户的协同过滤,本文基于电影评分数据做基于用户的推荐 主要做三个部分:1.读取数据:2.构建用户与用户的相似度矩阵:3.进行推荐: 查看数据u.data 主要用到前3列分别指 用户编号user_id.电影编号item_id.用户对电影的打分score 这个文件构建item-用户的倒排表用于构建用户和用户的相似度矩阵,构建用户-item的倒排表用于推荐 ubuntu@ubuntu-2:~/workspace/jupyter_project/recommendat…
推荐算法有基于协同的Collaboration Filtering:包括 user Based和item Based:基于内容 : Content Based 协同过滤包括基于物品的协同过滤和基于用户的协同过滤,本文基于电影评分数据做基于商品的推荐 查看数据u.data 主要用到前3列分别指 用户编号user_id.电影编号item_id.用户对电影的打分score 这个文件主要用户构建物品的相似度矩阵 ubuntu@ubuntu-2:~/workspace/jupyter_project/re…
好早的时候就打算写这篇文章,可是还是參加阿里大数据竞赛的第一季三月份的时候实验就完毕了.硬生生是拖到了十一假期.自己也是醉了... 找工作不是非常顺利,希望写点东西回想一下知识.然后再攒点人品吧,仅仅能如此了. 一.问题背景 二.基于用户的协同过滤算法介绍 三.数据结构和实验过程设计 四.代码 一.问题背景 首先介绍一下问题的背景.如今我有四个月的用户.品牌数据<user,brand>.即用户在这四个月中的某一天购买了某个品牌(当然为了简化算法模型.将购买时间省去,后面再说). 即如今有这四个…
目录 1. 前言 2. 原理 3. 数据及相似度计算 4. 根据相似度计算结果 5. 相关问题 5.1 如何提炼用户日志数据? 5.2 用户相似度计算很耗时,有什么好的方法? 5.3 有哪些改进措施? 6. 总结 1. 前言 协同过滤的思想在推荐系统中,可谓是开山鼻祖般的存在.从推荐系统最初至今,几十年的历程中,协同过滤一直都闪烁着迷人的光芒. 要说为何协同过滤这么重要,就得说说它的优点: 模型通用性强,不需要太多的领域知识 工程实现简单,可以方便的应用到产品中,而且效果还不错 协同过滤主要包括…
ligh@local-host$ ssh-copy-id -i ~/.ssh/id_rsa.pub root@192.168.0.3 基于物品的协同过滤推荐算法--读"Item-Based Collaborative Filtering Recommendation Algorithms" . - 番石榴的日志 - 网易博客 基于物品的协同过滤推荐算法--读"Item-Based Collaborative Filtering Recommendation Algorithm…
目录 1. 前言 2. 原理&计算&改进 3. 总结 1. 前言 说完基于用户的协同过滤后,趁热打铁,我们来说说基于物品的协同过滤:"看了又看","买了又买". 如果说协同过滤在推荐系统的召回策略中,占据着非常重要的地位,那么基于物品的协同过滤ItemCF,就是协同过滤的重心. 协同过滤算法诞生于1998年,由亚马逊首先提出,论文是:Item-Based Collaborative Filtering Recommendation Algorithm…
原文:http://blog.selfup.cn/1001.html 什么是协同过滤 协同过滤(Collaborative Filtering, 简称CF),wiki上的定义是:简单来说是利用某兴趣相投.拥有共同经验之群体的喜好来推荐使用者感兴趣的资讯,个人透过合作的机制给予资讯相当程度的回应(如评分)并记录下来以达到过滤的目的进而帮助别人筛选资讯,回应不一定局限于特别感兴趣的,特别不感兴趣资讯的纪录也相当重要. 以上定义太拗口,举个简单的例子:我现在多年不看日本anime的新番了,最近突然又想…
摘要: 大数据催生了互联网,电子商务,也导致了信息过载.信息过载的问题可以由推荐系统来解决.推荐系统可以提供选择新产品(电影,音乐等)的建议.这篇论文介绍了一个音乐推荐系统,它会根据用户的历史行为和口味向用户推荐歌曲.本文介绍一种基于用户和物品的协同过滤技术.首先,建立一个用户-物品相关矩阵来形成用户集群和物品集群.然后,使用这些集群找出和目标用户最相似的用户集群和物品集群.最后,系统会根据最相似的用户和物品集群来推荐音乐.该算法将在基准数据集Last.fm上进行实施.实验结果显示该算法的表现要…