非对称SVD电影推荐系统
采用1M MovieLensz数据(80%train, 20%test, UserIDs range between 1 and 6040 ,MovieIDs range between 1 and 3952, From http://files.grouplens.org/datasets/movielens/)
进行训练和测试,在k仅为10时,得到最佳RMSE为0.854743。在100k数据上k=100时最佳RMSE为0.916602。
以下公式和文字来自陈靖_的博文 http://blog.csdn.net/zhongkejingwang/article/details/43083603,包含详尽的描述和推导。
参考论文为《Factorization Meets the Neighborhood: a Multifaceted Collaborative Filtering Model Yehuda Koren》
SVD
通过对A矩阵进行奇异值分解:
现在可以来对A矩阵的映射过程进行分析了:如果在n维空间中找到一个(超)矩形,其边都落在A'A的特征向量的方向上,那么经过A变换后的形状仍然为(超)矩形!
vi为A'A的特征向量,称为A的右奇异向量,ui=Avi实际上为AA'的特征向量,称为A的左奇异向量。下面利用SVD证明文章一开始的满秩分解:
利用矩阵分块乘法展开得:
可以看到第二项为0,有
令
则A=XY即是A的满秩分解。
对任意一个矩阵A,都有它的满秩分解(k=Rank(A)):
那么刚才的评分矩阵R也存在这样一个分解,所以可以用两个矩阵P和Q的乘积来表示评分矩阵R:
上图中的U表示用户数,I表示商品数。然后就是利用R中的已知评分训练P和Q使得P和Q相乘的结果最好地拟合已知的评分,那么未知的评分也就可以用P的某一行乘上Q的某一列得到了:
这是预测用户u对商品i的评分,它等于P矩阵的第u行乘上Q矩阵的第i列。这个是最基本的SVD算法,那么如何通过已知评分训练得到P和Q的具体数值呢?
假设已知的评分为:
则真实值与预测值的误差为:
继而可以计算出总的误差平方和:
Basic SVD
利用梯度下降法可以求得SSE在Puk变量(也就是P矩阵的第u行第k列的值)处的梯度:
利用求导链式法则,e^2先对e求导再乘以e对Puk的求导:
由于
所以
上式中括号里的那一坨式子如果展开来看的话,其与Puk有关的项只有PukQki,其他的无关项对Puk的求导均等于0
所以求导结果为:
所以
为了让式子更简洁,令
这样做对结果没有影响,只是为了把求导结果前的2去掉,更好看点。得到
现在得到了目标函数在Puk处的梯度了,那么按照梯度下降法,将Puk往负梯度方向变化:
令更新的步长(也就是学习速率)为
则Puk的更新式为
同样的方式可得到Qik的更新式为
得到了更新的式子,现在开始来讨论这个更新要怎么进行。有两种选择:1、计算完所有已知评分的预测误差后再对P、Q进行更新。2、每计算完一个eui后立即对Pu和qi进行更新。这两种方式都有名称,分别叫:1、批梯度下降。2、随机梯度下降。两者的区别就是批梯度下降在下一轮迭代才能使用本次迭代的更新值,随机梯度下降本次迭代中当前样本使用的值可能就是上一个样本更新的值。由于随机性可以带来很多好处,比如有利于避免局部最优解,所以现在大多倾向于使用随机梯度下降进行更新。
RSVD
上面就是基本的SVD算法,但是,问题来了,上面的训练是针对已知评分数据的,过分地拟合这部分数据有可能导致模型的测试效果很差,在测试集上面表现很糟糕。这就是过拟合问题,关于过拟合与欠拟合可以看一下这张图
第一个是欠拟合,第二个刚好,第三个过拟合。那么如何避免过拟合呢?那就是在目标函数中加入正则化参数(加入惩罚项),对于目标函数来说,P矩阵和Q矩阵中的所有值都是变量,这些变量在不知道哪个变量会带来过拟合的情况下,对所有变量都进行惩罚:
这时候目标函数对Puk的导数就发生变化了,现在就来求加入惩罚项后的导数。
括号里第一项对Puk的求导前面已经求过了,第二项对Puk的求导很容易求得,第三项与Puk无关,导数为0,所以
同理可得SSE对qik的导数为
将这两个变量往负梯度方向变化,则更新式为
这就是正则化后的SVD,也叫RSVD。
加入偏置的SVD、RSVD
关于SVD算法的变种太多了,叫法也不统一,在预测式子上加点参数又会出来一个名称。由于用户对商品的打分不仅取决于用户和商品间的某种关系,还取决于用户和商品独有的性质,Koren将SVD的预测公式改成这样
第一项为总的平均分,bu为用户u的属性值,bi为商品i的属性值,加入的这两个变量在SSE式子中同样需要惩罚,那么SSE就变成了下面这样:
由上式可以看出SSE对Puk和qik的导数都没有变化,但此时多了bu和bi变量,同样要求出其更新式。首先求SSE对bu的导数,只有第一项和第四项和bu有关,第一项对bu的求导和之前的求导类似,用链式法则即可求得,第四项直接求导即可,最后可得偏导数为
同理可得对bi的导数为
所以往其负梯度方向变化得到其更新式为
这就是修改后的SVD(RSVD)。
#coding:utf8
import numpy as np class SVD():
def __init__(self,trainfile,testfile,factorNum=10):
self.trainfile=trainfile
self.testfile=testfile
self.factorNum=factorNum
self.userNum= 6040 # max user id
self.itemNum= 3952 # max movie id
self.learningRate=0.01
self.regularization=0.02
score=[float(line.split('::')[2])for line in open(self.trainfile)]
self.av= np.mean(score)
self.bu=np.zeros(self.userNum)
self.bi=np.zeros(self.itemNum)
temp=np.sqrt(self.factorNum)
self.pu=np.array([[(0.1*np.random.random()/temp) for i in range(self.factorNum)] for j in range(self.userNum)])
self.qi=np.array([[0.1*np.random.random()/temp for i in range(self.factorNum)] for j in range(self.itemNum)]) def train(self,iterTimes=100):
preRmse=10000.0
for iter in range(iterTimes):
fi=open(self.trainfile,'r')
for line in fi:
content=line.split('::')
user=int(content[0])-1
item=int(content[1])-1
rating=float(content[2])
pscore=self.predict(self.av,self.bu[user],self.bi[item],self.pu[user],self.qi[item])
eui=rating-pscore
self.bu[user]+=self.learningRate*(eui-self.regularization*self.bu[user])
self.bi[item]+=self.learningRate*(eui-self.regularization*self.bi[item])
temp=self.pu[user]
self.pu[user]+=self.learningRate*(eui*self.qi[item]-self.regularization*self.pu[user])
self.qi[item]+=self.learningRate*(temp*eui-self.regularization*self.qi[item])
fi.close()
curRmse=self.test(self.av,self.bu,self.bi,self.pu,self.qi)
print "Iteration %d times,RMSE is : %f" % (iter+1,curRmse)
if curRmse>preRmse:
print "The best RMSE is : %f" % (preRmse)
break
else:
preRmse=curRmse def test(self,av,bu,bi,pu,qi):
rmse=0.0
cnt=0
fi=open(self.testfile)
for line in fi:
cnt+=1
content=line.split('::')
user=int(content[0])-1
item=int(content[1])-1
score=float(content[2])
pscore=self.predict(av,bu[user],bi[item],pu[user],qi[item])
rmse+=(score-pscore)**2
fi.close()
return np.sqrt(rmse/cnt) def predict(self,av,bu,bi,pu,qi):
pscore=av+bu+bi+np.dot(pu,qi)
if pscore<1:
pscore=1
elif pscore>5:
pscore=5
return pscore if __name__=='__main__':
s=SVD("train.dat","test.dat")
s.train() # Iteration 24 times,RMSE is : 0.854743
# To convert train.dat and test.dat from ratings.dat.
import numpy as np
f=open("ratings.dat",'r')
a=[line for line in f]
n=len(a)
tn=int(n*0.8)
np.random.shuffle(a)
d=open("train.dat",'w')
[d.write(a[i]) for i in range(tn)]
d.close()
d=open("test.dat",'w')
[d.write(a[i]) for i in range(tn,n)]
d.close()
非对称SVD电影推荐系统的更多相关文章
- 使用SVD方法实现电影推荐系统
http://blog.csdn.net/zhaoxinfan/article/details/8821419 这学期选了一门名叫<web智能与社会计算>的课,老师最后偷懒,最后的课程pr ...
- 电影推荐系统---协同过滤算法(SVD,NMF)
SVD 参考 https://www.zybuluo.com/rianusr/note/1195225 1 推荐系统概述 1.1 项目安排 1.2 三大协同过滤 1.3 项目开发工具 ...
- SVD在推荐系统中的应用详解以及算法推导
SVD在推荐系统中的应用详解以及算法推导 出处http://blog.csdn.net/zhongkejingwang/article/details/43083603 前面文章SVD原理及推 ...
- 使用矩阵分解(SVD)实现推荐系统
http://ling0322.info/2013/05/07/recommander-system.html 这个学期Web智能与社会计算的大作业就是完成一个推荐系统参加百度电影推荐算法大赛,成绩按 ...
- 转】用Hadoop构建电影推荐系统
原博文出自于: http://blog.fens.me/hadoop-mapreduce-recommend/ 感谢! 用Hadoop构建电影推荐系统 Hadoop家族系列文章,主要介绍Hadoop家 ...
- 基于Mahout的电影推荐系统
基于Mahout的电影推荐系统 1.Mahout 简介 Apache Mahout 是 Apache Software Foundation(ASF) 旗下的一个开源项目,提供一些可扩展的机器学习领域 ...
- 基于pytorch的电影推荐系统
本文介绍一个基于pytorch的电影推荐系统. 代码移植自https://github.com/chengstone/movie_recommender. 原作者用了tf1.0实现了这个基于movie ...
- 【原创 Hadoop&Spark 动手实践 13】Spark综合案例:简易电影推荐系统
[原创 Hadoop&Spark 动手实践 13]Spark综合案例:简易电影推荐系统
- 从SVD到推荐系统
最近在学习推荐系统(Recommender System),跟大部分人一样,我也是从<推荐系统实践>学起,同时也想跟学机器学习模型时一样使用几个开源的python库玩玩.于是找到了surp ...
随机推荐
- druid简介
Druid首先是一个数据库连接池,但它不仅仅是一个数据库连接池,它还包含一个ProxyDriver,一系列内置的JDBC组件库,一个SQL Parser. 支持的数据库 Druid支持所有JDBC兼容 ...
- 2016 - 1 -19 初学HTML5 第一天
1.HTML COMMANDS MHTL commands called elements.Usually, an element has a start tag and an end tag e.g ...
- Linux学习之CentOS--FTP服务原理及vsfptd的安装、配置
本篇随笔将讲解FTP服务的原理以及vsfptd这个最常用的FTP服务程序的安装与配置... 一.FTP服务原理 FTP(File Transfer Protocol)是一个非常古老并且应用十分广泛的文 ...
- OC中在.h和.m中声明的属性和成员变量有何区别?
相比Swift而言,OC规矩太多. 差不多,.h中声明的属性和成员变量均可以在子类中访问到.而.m则不可.而属性其实也就是成员变量的一种简写,其内部自动包含了getter和setter方法. 如图:V ...
- HDU 5644 (费用流)
Problem King's Pilots (HDU 5644) 题目大意 举办一次持续n天的飞行表演,第i天需要Pi个飞行员.共有m种休假计划,每个飞行员表演1次后,需要休假Si天,并提供Ti报酬来 ...
- E - 今年暑假不AC
Time Limit:1000MS Memory Limit:32768KB 64bit IO Format:%I64d & %I64u Submit Status Des ...
- C++学习笔记35:函数模板
函数模板 函数模板的目的 设计通用的函数,以适应广泛的数据型式 函数模板的定义格式 template<模板型式参数列表>返回值型式 函数名称(参数列表): 原型:template<c ...
- genome file format
Some of the bedtools (e.g., genomeCoverageBed,complementBed, slopBed) need to know the size of the c ...
- UVa 10900 - So you want to be a 2n-aire?
题目大意: 一个答题赢奖金的问题,玩家初始的金额为1,给出n,表示有n道题目,t表示说答对一道题目的概率在t到1之间,每次面对一道题,可以选择结束游戏,获得当前奖金:回答下一道问题,答对的概率p在t到 ...
- Boot Repair-能一键修复ubuntu启动/引导项的软件(告别命令行)
如果你是windows+ubuntu的双系统,那么重装windows之后(非ghost 方式),是会直接进入windows的,之前的grub引导菜单会被抹掉,想要修复ubuntu的启动菜单的话,通常需 ...