用PersonalRank实现基于图的推荐算法

今天我们讲一个下怎么使用随机游走算法PersonalRank实现基于图的推荐。

在推荐系统中，用户行为数据可以表示成图的形式，具体来说是二部图。用户的行为数据集由一个个（u,i）二元组组成，表示为用户u对物品i产生过行为。本文中我们认为用户对他产生过行为的物品的兴趣度是一样的，也就是我们只考虑“感兴趣”OR“不感兴趣”。假设有下图所示的行为数据集。

其中users集U={A, B, C}，items集I = {a,b,c,d}。则用户物品的二部图如下所示：

我们用G(V, E)来表示这个图，则顶点集V=U∪I，图中的边则是由数据集中的二元组确定。二元组（u, i）表示u对i有过行为，则在图中表现为有边相连，即e(u,i)。【注意】，本文中我们不考虑各边的权重（即u对i的兴趣度），权重都默认为1。感兴趣即有边相连，不感兴趣则没有边相连。

那有了二部图之后我们要对u进行推荐物品，就转化为计算用户顶点u和与所有物品顶点之间的相关性，然后取与作者没有直接边相连的物品，按照相关性的高低生成推荐列表。说白了，这是一个图上的排名问题，我们最容易想到的就是Google的pageRank算法。

PageRank是Larry Page 和 Sergey Brin设计的用来衡量特定网页相对于搜索引擎中其他网页的重要性的算法，其计算结果作为google搜索结果中网页排名的重要指标。网页之间通过超链接相互连接，互联网上不计其数的网页就构成了一张超大的图。PageRank假设用户从所有网页中随机选择一个网页进行浏览，然后通过超链接在网页直接不断跳转。到达每个网页后，用户有两种选择：到此结束或者继续选择一个链接浏览。算法令用户继续浏览的概率为d，用户以相等的概率在当前页面的所有超链接中随机选择一个继续浏览。这是一个随机游走的过程。当经过很多次这样的游走之后，每个网页被访问用户访问到的概率就会收敛到一个稳定值。这个概率就是网页的重要性指标，被用于网页排名。算法迭代关系式如下所示：

上式中PR(i)是网页i的访问概率（也就是重要度），d是用户继续访问网页的概率，N是网页总数。in(i)表示指向网页i的网页集合，out(j)表示网页j指向的网页集合。

用user节点和item节点替换上面的网页节点就可以计算出每个user，每个item在全局的重要性，给出全局的排名，显然这并不是我们想要的，我们需要计算的是物品节点相对于某一个用户节点u的相关性。怎么做呢？Standford的Haveliwala于2002年在他《Topic-sensitive pagerank》一文中提出了PersonalRank算法，该算法能够为用户个性化的对所有物品进行排序。它的迭代公式如下：

我们发现PersonalRank跟PageRank的区别只是用替换了1/N，也就是说从不同点开始的概率不同。u表示我们推荐的目标用户，这样使用上式计算的就是所有顶点相对于顶点u的相关度。

与PageRank随机选择一个点开始游走（也就是说从每个点开始的概率都是相同的）不同，如果我们要计算所有节点相对于用户u的相关度，则PersonalRank从用户u对应的节点开始游走，每到一个节点都以1-d的概率停止游走并从u重新开始，或者以d的概率继续游走，从当前节点指向的节点中按照均匀分布随机选择一个节点往下游走。这样经过很多轮游走之后，每个顶点被访问到的概率也会收敛趋于稳定，这个时候我们就可以用概率来进行排名了。

在执行算法之前，我们需要初始化每个节点的初始概率值。如果我们对用户u进行推荐，则令u对应的节点的初始访问概率为1，其他节点的初始访问概率为0，然后再使用迭代公式计算。而对于pageRank来说，由于每个节点的初始访问概率相同，所以所有节点的初始访问概率都是1/N （N是节点总数）。

我自己用Python实现了一下PersonalRank：（可执行，感兴趣的童鞋可通过附件下载源码文件，若有错误恳请指正^_^）

#coding=utf-8

__author__ = 'Harry Huang'

def PersonalRank(G, alpha, root, max_step):

    rank = dict()

    rank = {x:0 for x in G.keys()}

    rank[root] = 1

    #开始迭代

    for k in range(max_step):

        tmp = {x:0 for x in G.keys()}

        #取节点i和它的出边尾节点集合ri

        for i, ri in G.items():

            #取节点i的出边的尾节点j以及边E(i,j)的权重wij, 边的权重都为1，在这不起实际作用

            for j, wij in ri.items():

                #i是j的其中一条入边的首节点，因此需要遍历图找到j的入边的首节点，

                #这个遍历过程就是此处的2层for循环，一次遍历就是一次游走

                tmp[j] += alpha * rank[i] / (1.0 * len(ri))

        #我们每次游走都是从root节点出发，因此root节点的权重需要加上(1 - alpha)

        #在《推荐系统实践》上，作者把这一句放在for j, wij in ri.items()这个循环下，我认为是有问题。

        tmp[root] += (1 - alpha)

        rank = tmp

        #输出每次迭代后各个节点的权重

        print 'iter: ' + str(k) + "\t",

        for key, value in rank.items():

            print "%s:%.3f, \t"%(key, value),

        print

    return rank

if __name__ == '__main__' :

    G = {'A' : {'a' : 1, 'c' : 1},

         'B' : {'a' : 1, 'b' : 1, 'c':1, 'd':1},

         'C' : {'c' : 1, 'd' : 1},

         'a' : {'A' : 1, 'B' : 1},

         'b' : {'B' : 1},

         'c' : {'A' : 1, 'B' : 1, 'C':1},

         'd' : {'B' : 1, 'C' : 1}}

    PersonalRank(G, 0.85, 'A', 100)

数据集使用的本文一开始讲的那个，最终各个节点的概率结果如下所示：

上面的代码是对本文一开始描述的数据集中的用户A进行推荐。上图给出了不同迭代次数后各节点的概率值。发现46次迭代之后，所有节点的概率值全都收敛。在这个例子中，A用户没有产生过行为的物品是b和d，相对于A的访问概率分别是0.039,0.076，d的访问概率显然要大于b，所有给A用户的推荐列表为{d,b}。

附件：PersonalRank.py

用PersonalRank实现基于图的推荐算法的更多相关文章

推荐系统之基于图的推荐：基于随机游走的PersonalRank算法
转自http://blog.csdn.net/sinat_33741547/article/details/53002524 一基本概念基于图的模型是推荐系统中相当重要的一种方法,以下内容的基本思 ...
新闻推荐系统：基于内容的推荐算法（Recommender System：Content-based Recommendation）
https://blog.csdn.net/qq_32690999/article/details/77434381 因为开发了一个新闻推荐系统的模块,在推荐算法这一块涉及到了基于内容的推荐算法(Co ...
【T-BABY 夜谈大数据】基于内容的推荐算法
这个系列主要也是自己最近在研究大数据方向,所以边研究.开发也边整理相关的资料.网上的资料经常是碎片式的,如果要完整的看完可能需要同时看好几篇文章,所以我希望有兴趣的人能够更轻松和快速地学习相关的知识. ...
加入商品分类信息，考虑用户所处阶段的图模型推荐算法 Rws(random walk with stage)
场景: 一个新妈妈给刚出生的宝宝买用品,随着宝宝的长大,不同的阶段需要不同的物品. 这个场景中涉及到考虑用户所处阶段,给用户推荐物品的问题. 如果使用用户协同过滤,则需要根据购买记录,找到与用户处于同 ...
基于DNN的推荐算法总结
1.早期的算法深度学习在CTR预估应用的常见算法有Wide&Deep,DeepFM等. 这些方法一般的思路是:通过Embedding层,将高维离散特征转换为固定长度的连续特征,然后通过多个全 ...
基于SVD的推荐算法
首先每行减去每列的均值,然后svd分解,得到USV,然后US代表用户矩阵u,SV代表项目矩阵v,那么预测评分为用户均值加上uv. 降维方法扩展性好,不过降维导致信息损失,而且与数据及相关,高维情况下效 ...
推荐系统实践 0x09 基于图的模型
用户行为数据的二分图表示用户的购买行为很容易可以用二分图(二部图)来表示.并且利用图的算法进行推荐.基于邻域的模型也可以成为基于图的模型,因为基于邻域的模型都是基于图的模型的简单情况.我们可以用二元 ...
（转）基于MapReduce的ItemBase推荐算法的共现矩阵实现（一）
转自:http://zengzhaozheng.blog.51cto.com/8219051/1557054 一.概述这2个月为公司数据挖掘系统做一些根据用户标签情况对用户的相似度进行评估,其中涉及 ...
基于用户的协同过滤的电影推荐算法(tensorflow)
数据集: https://grouplens.org/datasets/movielens/ ml-latest-small 协同过滤算法理论基础 https://blog.csdn.net/u012 ...

随机推荐

树莓派配置AP模式
所需硬件:树莓派.无线网卡 1.查看无线网卡是否被识别 pi@raspberrypi ~ $ sudo lsusb Bus Device : ID : Standard Microsystems Co ...
【转】代码高处走从VC6到VC9移植代码问题说明
首先可以直接用Visual Studio 2008的打开VC6的工作区文件和项目文件(dsw和dsp),并将其升级为VS2008的解决方案格式和项目格式(sln和vcproj),VC9的编译器相对于V ...
make fontconfig 时出现No package ‘libxml-2.0′ found的解决方法
这里显示一个错误信息:checking for LIBXML2… configure: error: Package requirements (libxml-2.0 >= 2.6) were ...
Linq 中的TakeWhile 和 SkipWhile
这两个概念容易搞混理解了一番后在这里写下便于记忆 SkipWhile 可以理解为如果条件满足就一直跳过知道不满足后就取剩下的所有元素(后面的不会再判断) TakeWhile 可以理解为 ...
(转) VS2012程序打包部署详解
程序编写测试完成后接下来我们要做的是打包部署程序,但VS2012让人心痛的是没有了打包工具.不知道出于什么原因微软没有将打包工具集成在开发环境中,但是我知道总会有解决办法的. 经过翻阅资料发现 ...
TextView实现跑马灯效果
网上有很多跑马灯的介绍,有很多跑马灯的代码.或许我的不是最好的,但是应该很容易明白的. 我们先来介绍一个跑马灯的代码 <LinearLayout xmlns:android="http ...
AVAudioPlayer 播放音频
play方法实现立即播放音频功能 pause方法可以对播放暂停 stop方法可以停止播放行为注: pause & stop的不同之处: 调用stop方法会撤销调用prepareToPl ...
NetBeans中文乱码解决办法
一.Windows下NetBeans中文乱码解决办法找到你的Netbeans安装目录下的etc文件夹,用记事本打开netbeans.conf,找到netbeans_default_options(不 ...
iOS极光推送集成步骤
1.下载SDK,导入Xcode 2.在苹果开发者中心建立AppId与bundleID进行关联,注意勾选推送功能 3.在苹果开发者中心建立推送证书 4.在极光后台建立应用且上传推送证书 5.建立描述文件 ...
python 调用第三方库压缩png或者转换成webp
因为工作需要去研究了下png的压缩,发现转换成webp可以小很多,但是webp在手机上的解码速度比png的解码速度慢很多.出于进几年手机设备的处理器的性能也不错了,所以准备两套方案. 在网上搜索了一些 ...

用PersonalRank实现基于图的推荐算法

用PersonalRank实现基于图的推荐算法的更多相关文章

随机推荐

热门专题