个性化召回算法实践(一)——CF算法

【个性化召回算法实践(一)——CF算法】的更多相关文章

个性化召回算法实践(一)——CF算法

协同过滤推荐(Collaborative Filtering Recommendation)主要包括基于用户的协同过滤算法与基于物品的协同过滤算法. 下面,以movielens数据集为例,分别实践这两种算法. movielens数据集包含四列,[用户ID|电影ID|打分|时间戳],根据用户的历史评分向用户召回电影候选集. UserCF 基于用户的协同过滤算法主要包括两个步骤. (1) 找到和目标用户兴趣相似的用户集合. (2) 找到这个集合中的用户喜欢的,且目标用户没有听说过的物品推荐给目标用户…

个性化排序算法实践(五)——DCN算法

wide&deep在个性化排序算法中是影响力比较大的工作了.wide部分是手动特征交叉(负责memorization),deep部分利用mlp来实现高阶特征交叉(负责generalization),wide部分和deep部分joint train. Deep&Cross Network模型我们下面将简称DCN模型,对比Wide & Deep ,不需要特征工程来获得高阶的交叉特征.对比 FM 系列的模型,DCN 拥有更高的计算效率并且能够提取到更高阶的交叉特征. 一个DCN模型从嵌入…

个性化排序算法实践(三)——deepFM算法

FM通过对于每一位特征的隐变量内积来提取特征组合,最后的结果也不错,虽然理论上FM可以对高阶特征组合进行建模,但实际上因为计算复杂度原因,一般都只用到了二阶特征组合.对于高阶特征组合来说,我们很自然想到多层神经网络DNN. DeepFM目的是同时学习低阶和高阶的特征交叉,主要由FM和DNN两部分组成,底部共享同样的输入.模型可以表示为: \[ \hat{y} = sigmoid(y_{FM}+y_{DNN}) \]…

个性化召回算法实践(三)——PersonalRank算法

将用户行为表示为二分图模型.假设给用户\(u\)进行个性化推荐,要计算所有节点相对于用户\(u\)的相关度,则PersonalRank从用户\(u\)对应的节点开始游走,每到一个节点都以\(1-d\)的概率停止游走并从\(u\)重新开始,或者以\(d\)的概率继续游走,从当前节点指向的节点中按照均匀分布随机选择一个节点往下游走.这样经过很多轮游走之后,每个顶点被访问到的概率也会收敛趋于稳定,这个时候我们就可以用概率来进行排名了. 在执行算法之前,我们需要初始化每个节点的初始概率值.如果我们对用户…

个性化召回算法实践(四)——ContentBased算法

ContentBased算法的思想非常简单:根据用户过去喜欢的物品(本文统称为 item),为用户推荐和他过去喜欢的物品相似的物品.而关键就在于这里的物品相似性的度量,这才是算法运用过程中的核心. CB的过程一般包括以下三步: 物品表示(Item Representation):为每个item抽取出一些特征(也就是item的content了)来表示此item: 特征学习(Profile Learning):利用一个用户过去喜欢(及不喜欢)的item的特征数据,来学习出此用户的喜好特征(profi…

个性化召回算法实践(二)——LFM算法

LFM算法核心思想是通过隐含特征(latent factor)联系用户兴趣和物品,找出潜在的主题和分类.LFM(latent factor model)通过如下公式计算用户u对物品i的兴趣: \[ Preference(u,i) = r_{ui} = {p_u}^T q_i = \sum_{f=1}^F p_{u,k} q_{i,k} \] 定义\(P\)矩阵是user-class矩阵,矩阵值\(P_{ij}\)表示的是user \(i\)对class \(j\)的兴趣度:\(Q\)矩阵式cla…

个性化排序算法实践(一)——FM算法

因子分解机(Factorization Machine,简称FM)算法用于解决大规模稀疏数据下的特征组合问题.FM可以看做带特征交叉的LR. 理论部分可参考FM系列,通过将FM的二次项化简,其复杂度可优化到\(O(kn)\).即: \[ \hat y(x) = w_0+\sum_{i=1}^n w_i x_i +\sum_{i=1}^n \sum_{j=i+1}^n ⟨vi,vj⟩ x_i x_j \\ =w_0+\sum_{i=1}^n w_i x_i + \frac{1}{2} \sum_{…

个性化排序算法实践(二)——FFM算法

场感知分解机(Field-aware Factorization Machine ,简称FFM)在FM的基础上进一步改进,在模型中引入类别的概念,即field.将同一个field的特征单独进行one-hot,因此在FFM中,每一维特征都会针对其他特征的每个field,分别学习一个隐变量,该隐变量不仅与特征相关,也与field相关.假设样本的n个特征属于f个field,那么FFM的二次项有nf个隐向量.而在FM模型中,每一维特征的隐向量只有一个.FM可以看做FFM的特例,把所有特征都归属到一个fi…

算法实践--最小生成树(Kruskal算法)

什么是最小生成树(Minimum Spanning Tree) 每两个端点之间的边都有一个权重值,最小生成树是这些边的一个子集.这些边可以将所有端点连到一起,且总的权重最小下图所示的例子,最小生成树是{cf, fa, ab} 3条边 Kruskal算法用到上一篇中介绍的不相交集合(并查集) 首先,定义V是端点的集合,E是边的集合,A为要求的最小生成树集合初始A为空集合,每个端点都作为单独的不相交集合将所有边根据其权重进行排序对每条边(v1, v2),如果其两个端点数据不同的不相交集,则…

[迷宫中的算法实践]迷宫生成算法——递归分割算法

Recursive division method Mazes can be created with recursive division, an algorithm which works as follows: Begin with the maze's space with no walls. Call this a chamber. Divide the chamber with a randomly positioned wall (or multiple walls)…