机器学习 | 简介推荐场景中的协同过滤算法，以及SVD的使用

本文始发于个人公众号：TechFlow，原创不易，求个关注

今天是机器学习专题的第29篇文章，我们来聊聊SVD在上古时期的推荐场景当中的应用。

协同过滤的原理

协同过滤的原理非常简单，一句话概括，就是寻找相似的商品以及相似的人。

因为在平台当中的商品和人可能数量都非常大，当我们要进行推荐的时候，我们不可能穷举所有的商品来进行预测点击率，这显然是机器无法抗住的。所以我们希望把用户在平台上的行为使用起来，让用户的行为给平台作为指引。根据用户的行为寻找出行为相似的用户以及相似的商品。

所以协同过滤有两套逻辑，也可以认为是两种做法。第一种做法是user-based也就是寻找偏好相似的用户，这个不难理解，比如说经常买文具、买书的大概率是学生。假设我们知道了A和B行为相似，也就是说他们可能有相似的喜好。那么假设A购买过商品1并且给出了好评，而B没有购买过，那么很有可能B也会喜欢这个商品，所以我们就可以推荐给B。

第二种做法自然就是item-based，比如你搜索点击了一个商品A，平台会将和这个商品类似的商品BCD推荐给你，会放在商品详情页的下方的猜你喜欢当中。比如你看的是衬衫，它可能会给你推荐别家的衬衫，也可能给你推荐西裤或者是领带。本质上逻辑是一样的，因为这些商品和这件衬衫的相关度比较高。

下一个问题是用户和用户，商品和商品之间的相关度是怎么来的呢？

答案很简单，是通过这个矩阵来的：

我们观察一下这个矩阵，这是一个用户和商品的相关行为矩阵，每一行表示一个用户的行为，每一列表示每一个商品的销售情况。也就是说我们可以用这个矩阵当中的行向量表示用户，列向量表示商品。既然我们把用户和商品用向量表示出来了，接下来的事情就很简单了，我们只需要计算向量之间的相似度就可以找到相似的用户以及商品了。

我们要计算向量的相似度有很多种办法，我们可以计算两个向量的余弦值，可以计算欧式距离、皮尔逊值等等。

SVD的作用

其实到这里关于协同过滤就介绍完了，但问题是这和SVD看起来好像没什么关系呀？

我们仔细琢磨一下就能发现它们之间的关系，对于规模比较小的公司或者场景来说，这当然是没问题的。比如说电影评分网站，因为电影的数量往往不会很大，充其量也在万这个量级，所以这个矩阵可能还是存的下的。如果是电商公司，商品和用户都是亿这个维度的，这个矩阵显然是非常巨大的，根本不可能在内存当中存储得下，更别提相似度计算了。并且这样的矩阵必然存在大量稀疏和空缺，我们将它使用SVD压缩也是非常合理的做法。

首先我们开发出一个辅助函数，根据我们设置的百分比计算出最少需要的奇异值的数量：

def select_K(sigma, percentage):

    square = sigma**2

    base = sum(square)

    s = 0

    k = 0

    for i in sigma:

        s += i**2

        k += 1

        if s >= base * percentage:

            return k

其次我们对原矩阵进行svd分解，并且设置阈值对原矩阵进行压缩：

data = np.mat([[0, 0, 0, 0, 0, 4, 0, 0, 0, 0, 5],

           [0, 0, 0, 3, 0, 4, 0, 0, 0, 0, 3],

           [0, 0, 0, 0, 4, 0, 0, 1, 0, 4, 0],

           [3, 3, 4, 0, 0, 0, 0, 2, 2, 0, 0],

           [5, 4, 5, 0, 0, 0, 0, 5, 5, 0, 0],

           [0, 0, 0, 0, 5, 0, 1, 0, 0, 5, 0],

           [4, 3, 4, 0, 0, 0, 0, 5, 5, 0, 1],

           [0, 0, 0, 4, 0, 4, 0, 0, 0, 0, 4],

           [0, 0, 0, 2, 0, 2, 5, 0, 0, 1, 2],

           [0, 0, 0, 0, 5, 0, 0, 0, 0, 4, 0],

           [1, 0, 0, 0, 0, 0, 0, 1, 2, 0, 0]])

u, sigma, v = np.linalg.svd(data)

k = select_K(sigma, 0.95)

sigmaK = np.mat(np.eye(k) * sigma[:k])

itemMat = data.T.dot(u[:,:k]).dot(sigmaK.I)

最后压缩之后得到的是item的矩阵，其中的每一个行向量对应一个item。

这只是一个模拟，如果是在实际上的应用，我们可以将几亿甚至是更多的维度压缩到几百甚至更少，极大的缩减了存储所需要的开销。而且svd的计算是可以分布式并发进行的，所以即使原始数据非常庞大，也是可以支撑的。

总结

到这里关于协同过滤算法以及SVD的应用就结束了，虽然算法非常简单，实现起来也容易，但是这其中还有很多问题没有解决。比如说这个用户和商品的矩阵并不是一成不变的，因为我们随时都会有新商品上架以及新用户注册，对于这些没有行为的新商品和新用户应该怎么办？

另外一个问题是，这个算法没有改进的空间，一旦实现完成了上线之后，我们做不了太多的改进。如果是其他的模型或者是算法，我们可以通过迭代算法以及模型的方法来获取更好的效果，但是协同过滤不行。这也是为什么逐渐被淘汰的原因。

今天的文章到这里就结束了，如果喜欢本文的话，请来一波素质三连，给我一点支持吧（关注、转发、点赞）。

本文使用 mdnice 排版