推荐系统之矩阵分解及其Python代码实现

有如下R(5,4)的打分矩阵：（“-”表示用户没有打分）

其中打分矩阵R(n,m)是n行和m列，n表示user个数，m行表示item个数

那么，如何根据目前的矩阵R（5,4）如何对未打分的商品进行评分的预测（如何得到分值为0的用户的打分值）？

——矩阵分解的思想可以解决这个问题，其实这种思想可以看作是有监督的机器学习问题（回归问题）。

矩阵R可以近似表示为P与Q的乘积：R（n,m）≈ P(n,K)*Q(K,m)

矩阵分解的过程中，将原始的评分矩阵分解成两个矩阵和的乘积：

矩阵P(n,K)表示n个user和K个特征之间的关系矩阵，这K个特征是一个中间变量，矩阵Q(K,m)的转置是矩阵Q(m,K)，矩阵Q(m,K)表示m个item和K个特征之间的关系矩阵，这里的K值是自己控制的，可以使用交叉验证的方法获得最佳的K值。为了得到近似的R(n,m)，必须求出矩阵P和Q，如何求它们呢？

【方法】

1. 首先令

2. 损失函数：使用原始的评分矩阵与重新构建的评分矩阵之间的误差的平方作为损失函数，即：

如果R(i,j)已知，则R(i,j)的误差平方和为：

　　最终，需要求解所有的非“-”项的损失之和的最小值：

3. 使用梯度下降法获得修正的p和q分量：

　　求解损失函数的负梯度：

根据负梯度的方向更新变量：

4. 不停迭代直到算法最终收敛（直到sum(e^2) <=阈值）

（Plus：为了防止过拟合，增加正则化项）

【加入正则项的损失函数求解】

1. 首先令

2. 通常在求解的过程中，为了能够有较好的泛化能力，会在损失函数中加入正则项，以对参数进行约束，加入正则的损失函数为：

也即：

3. 使用梯度下降法获得修正的p和q分量：

　　求解损失函数的负梯度：

　　根据负梯度的方向更新变量：

4. 不停迭代直到算法最终收敛（直到sum(e^2) <=阈值）

【预测】利用上述的过程，我们可以得到矩阵和，这样便可以为用户 i 对商品 j 进行打分：

【Python代码实现如下】（基于Python 3.X ；使用正则项）

 # !/usr/bin/env python

 # encoding: utf-8

 __author__ = 'Scarlett'

 #矩阵分解在打分预估系统中得到了成熟的发展和应用

 # from pylab import *

 import matplotlib.pyplot as plt

 from math import pow

 import numpy

 def matrix_factorization(R,P,Q,K,steps=5000,alpha=0.0002,beta=0.02):

     Q=Q.T  # .T操作表示矩阵的转置

     result=[]

     for step in range(steps):

         for i in range(len(R)):

             for j in range(len(R[i])):

                 if R[i][j]>0:

                     eij=R[i][j]-numpy.dot(P[i,:],Q[:,j]) # .dot(P,Q) 表示矩阵内积

                     for k in range(K):

                         P[i][k]=P[i][k]+alpha*(2*eij*Q[k][j]-beta*P[i][k])

                         Q[k][j]=Q[k][j]+alpha*(2*eij*P[i][k]-beta*Q[k][j])

         eR=numpy.dot(P,Q)

         e=0

         for i in range(len(R)):

             for j in range(len(R[i])):

                 if R[i][j]>0:

                     e=e+pow(R[i][j]-numpy.dot(P[i,:],Q[:,j]),2)

                     for k in range(K):

                         e=e+(beta/2)*(pow(P[i][k],2)+pow(Q[k][j],2))

         result.append(e)

         if e<0.001:

             break

     return P,Q.T,result

 if __name__ == '__main__':

     R=[

         [5,3,0,1],

         [4,0,0,1],

         [1,1,0,5],

         [1,0,0,4],

         [0,1,5,4]

     ]

     R=numpy.array(R)

     N=len(R)

     M=len(R[0])

     K=2

     P=numpy.random.rand(N,K) #随机生成一个 N行 K列的矩阵

     Q=numpy.random.rand(M,K) #随机生成一个 M行 K列的矩阵

     nP,nQ,result=matrix_factorization(R,P,Q,K)

     print("原始的评分矩阵R为：\n",R)

     R_MF=numpy.dot(nP,nQ.T)

     print("经过MF算法填充0处评分值后的评分矩阵R_MF为：\n",R_MF)

 #-------------损失函数的收敛曲线图---------------

     n=len(result)

     x=range(n)

     plt.plot(x,result,color='r',linewidth=3)

     plt.title("Convergence curve")

     plt.xlabel("generation")

     plt.ylabel("loss")

     plt.show()

运行结果如下：

损失函数的收敛曲线图：

【代码的GitHub地址】

https://github.com/shenxiaolinZERO/CoolRSer/blob/master/CoolRSer/MatrixFactorization.py

【Reference】

1、Matrix Factorization: A Simple Tutorial and Implementation in Python

2、矩阵分解在推荐系统的应用以及python代码的实现

随机推荐

iOS:制作一个简易的计算器
初步接触视图,制作了一个简易的计算器,基本上简单的计算是没有问题的,不是很完美,可能还有一些bug,再接再厉. // // ViewController.m // 计算器 // // Created ...
data-stream-as-disjoint-intervals
https://leetcode.com/problems/data-stream-as-disjoint-intervals/ /** * Definition for an interval. * ...
python3 把excel文件合并并保存到csv文件
具体是这样,某路径下有很多 excel文件,文件名中包含相同关键字的是一类文件,把包含相同关键字的文件合并成一个文件,生成一个新的csv文件 # coding=utf-8 import xlrd im ...
【架构】Kubernetes和Spring Cloud哪个部署微服务更好？
Spring Cloud 和Kubernetes都自称自己是部署和运行微服务的最好环境,但是它们在本质上和解决不同问题上是有很大差异的.在本文中,我们将看到每个平台如何帮助交付基于微服务的架构(MSA ...
[Big Data] Week4B (Basic)
Question 1 Note: In this question, all columns will be written in their transposed form, as rows, to ...
[Node.js]30. Level 6: Listen 'Question' from client, and then Answer the Question
Clients can also answer each other questions, so let's build that feature by first listening for the ...
Android ShareSDKQQ 第三方登录so easy？
昨天群里有个群友看到我之前做的那个qq第三方登录怎么做的,于是乎思考了一下,还是决定写一篇博客记录下.事实上都不难的,事实上之前我又写到FaceBook的第三方登录不知道看下这Android集成Fac ...
Discuz常见大问题-如何DIY一个独立页面
首先参考Discuz如何自定义单个页面的文章,确保你已经能做一个"关于我们"这种纯HTML静态页面(只有文字和静态图片描述).其次参考下面的文件修改原来的htm文件注意我用红色标 ...
利用Session完成用户的登录和注销
用户的登录和注销是最常见的Web应用案例,当一个应用的客户登录了以后,其他所有的会话都得知道这个用户已经登录还很有可能得提取用户的昵称予以显示等等,所以,只有把登录成功的用户的信息放入到Session ...
PyQt5教程——对话框（6）
PyQt5中的对话框对话框窗口或对话框是大多数主流GUI应用不可缺少的部分.对话是两个或更多人之间的会话.在计算机应用中,对话框是一个用来和应用对话的窗口.对话框可以用来输入数据,修改数据,改变应用 ...

推荐系统之矩阵分解及其Python代码实现

推荐系统之矩阵分解及其Python代码实现的更多相关文章

随机推荐

热门专题