主要介绍 隐语义模型 LFM(latent factor model)。

隐语义模型最早在文本挖掘领域被提出，用于找到文本的隐含语义，相关名词有 LSI、pLSA、LDA 等。在推荐领域，隐语义模型也有着举足轻重的地位。下述的实验设计见推荐系统–用户行为和实验设计

基本思想

核心思想: 通过隐含特征(latent factor)联系用户兴趣和物品。具体来说，就是对于某个用户，首先得到他的兴趣分类，然后从分类中挑选他可能喜欢的物品。
基于兴趣分类的方法需要解决3个问题：

如何对物品进行分类？
如何确定物品对哪些类的物品感兴趣，以及感兴趣的程度？
对于一个给定的类，选择哪些属于这个类的物品推荐给用户，以及如何确定这些物品在一个类中的权重？

如何对物品进行分类？
物品分类往往是通过人工编辑进行，然而人工编辑存在很多缺陷

编辑的分类大部分是从书的内容出发，而不是从书的读者群出发。
比如说《具体数学》这本书，人工编辑可能认为属于数学，而这本书的读者可能更多是计算机出身的，会认为它属于计算机
编辑很难控制分类的粒度
有些推荐我们做粗粒度就可以了(比如说初学者)，而有些推荐我们需要深入到细分领域(比如资深研究人员)
编辑很难给一个物品多个分类
编辑很难给出多个维度的分类
编辑很难决定一个物品在某一个分类中的权重

隐含语义分析技术(latent variable analysis)采取基于用户行为统计的自动聚类，可以较好解决上面提出的问题。

代表用户意见
分类来自对用户行为的统计，和 ItemCF 在物品分类方面的思想类似，如果两个物品同时被多个用户喜好，那么这两个物品可能属于同一个类
控制分类粒度
自定义分类个数
一个物品多分类
计算出物品属于某个类的权重，因此每个物品都不是硬性地被分到某一个类中
多维度分类
基于用户的共同兴趣计算出来的，如果用户的共同兴趣是某一个维度，那么 LFM 给出的类也是相同维度
物品在分类下的权重
统计用户行为决定物品在某一个分类中的权重，如果某个类的用户都会喜欢某个物品，那么这个物品在这个类中的权重可能比较高

算法

隐含语义分析技术有很多著名的模型和方法，相关的名词有 pLSA、LDA、隐含类别模型(latent class model)、隐含主题模型(latent topic model)、矩阵分解(matrix factorization)，这些技术和方法本质上是相通的，很多方法都可以用于个性化推荐系统。本篇只介绍 LFM。

用户对物品的兴趣

计算用户 u 对物品 i 的兴趣
$$Preference(u,i)=r_{ui}=P^T_uq_i=sum^F_{f=1}p_{u,k}q_{i,k}$$

$p_{u,k}$: 模型参数，用户 u 的兴趣和第 k 个隐类的关系
$q_{i,k}$: 模型参数，第 k 个隐类和物品 i 之间的关系

产生负样本

我们这里用的是隐反馈数据集，只有正样本(用户喜欢什么物品)，而没有负样本(用户对什么物品不感兴趣)，因此第一个问题是如何对每个用户产生负样本。

Rong Ran 提出了以下方法。

对于一个用户，用他所有没有过行为的物品作为负样本
对于一个用户，从他没有过行为的物品中均匀采样出一些物品作为负样本
对于一个用户，从他没有过行为的物品中采样出一些物品作为负样本，但采样时，保证没给用户的正负样本数目相当
对于一个用户，从他没有过行为的物品中采样出一些物品作为负样本，但采样时，偏重采样不热门的物品

Rong Ran 表示第一种负样本太多，计算复杂度高，精度也差，而第三种优于第二种，第二种优于第四种。

另外需要遵循的原则是：

对每个用户，要保证正负样本的平衡(数目相似)
对每个用户采样负样本时，要选取哪些很热门，但用户却没有行为的物品
对于冷门物品，可能用户压根没发现，所以谈不上是否感兴趣

负样本采样过程

'''
items: dictionary of items where user takes action
items_pool: list of candidate items; the more popular item i is, the more often item i appear
'''
def RandomSelectNegativeSample(self, items):
    ret = dict()
    for i in items.keys():
        ret[i] = 1
    n=0
    for i in range(0, len(items) * 3): # make the number of n 大专栏  推荐系统--隐语义模型LFMegative samples close to that of positvie
        item = items_pool[random.randint(0, len(items_pool) - 1)]
        if item in ret:
            continue
        ret[item] = 0
        n+=1
        if n > len(items):
            break
    return ret

损失函数及学习过程

得到一个用户-物品集 K={(u,i)}，如果(u,i)是正样本，则有 $r_{ui}=1$，否则$r_{ui}=0$，然后通过随机梯度下降来优化损失函数找到最合适的参数 p 和 q：

$lambda ||p_u||^2 + lambda ||q_i||^2$ 是防止过拟合的正则化项，$lambda$ 通过实验获得。

def LatentFactorModel(user_items, F, N, alpha, lambda):
    [P, Q] = InitModel(user_items, F)
    for step in range(0,N):
        for user, items in user_items.items():
            samples = RandSelectNegativeSamples(items)
            for item, rui in samples.items():
                eui = rui - Predict(user, item)
                for f in range(0, F):
                    P[user][f] += alpha * (eui * Q[item][f] - lambda * P[user][f])
                    Q[item][f] += alpha * (eui * P[user][f] - lambda * Q[item][f])
        alpha *= 0.9

def Recommend(user, P, Q):
    rank = dict()
    for f, puf in P[user].items():
        for i, qfi in Q[f].items():
            if i not in rank:
             rank[i] += puf * qfi
    return rank

实验

4 个隐类中排名最高的一些电影

参数：

隐特征个数 F
学习速率 alpha
正则化参数 lambda
负样本/正样本比例 ratio

实验发现，ratio 对 LFM 性能影响最大，随着负样本数目的增加，LFM 的准确率和召回率有明显提高，当 ratio > 10后趋于稳定，同时，随着负样本数目增加，覆盖率不断降低，流行度不断增加，说明 ratio 参数控制了推荐算法发掘长尾的能力。另外，与之前实验比较，在所有指标上都优于 UserCF 和 ItemCF。然而当数据集非常稀疏时，LFM 的性能会明显下降。

固定 F=100, alpha=0.02, lambda=0.01,研究 ratio 对推荐性能的影响。

实际应用

LFM 模型在实际使用中有一个困难，就是很难实现实时推荐。经典的 LFM 模型每次训练都需要扫描所有的用户行为记录，并且需要在用户行为记录上反复迭代来优化参数，所以每次训练都很耗时，实际应用中只能每天训练一次。在新闻推荐中，冷启动问题非常明显，每天都会有大量的新闻，这些新闻往往如昙花一现，在很短的时间获得很多人的关注，然后在很短时间内失去关注，实时性就非常重要。雅虎对此提出了一个解决方案。

首先，利用新闻链接的内容属性(关键词、类别等)得到链接 i 的内容特征向量 yi，其次，实时收集用户对链接的行为，并且用这些数据得到链接 i 的隐特征向量 qi，然后，利用下面的公式预测用户 u 是否会单击链接 i:

$$r_{ui}=x^T_uy_i+p^T_uq_i$$

$y_i$: 根据物品的内容属性直接生成
$x_{uk}$: 用户 u 对内容特征 k 的兴趣程度，用户向量 $x_u$ 可以根据历史行为记录获得，每天计算一次
$p_u$,$q_i$: 实时拿到的用户最近几小时的行为训练 LFM 模型获得

对于一个新加入的物品 i，可以通过 $x^T_uy_i$估计用户 u 对物品 i 的兴趣，然后经过几个小时后，通过 $p^T_uq_i$得到更准确的预测值。

小结

与基于邻域的方法相比的优缺点：

随机推荐

Huffman编码实验
一. 实验目的熟练掌握哈夫曼树的建立和哈夫曼编码的算法实现. 二. 实验内容根据哈夫曼编码的原理,编写一个程序,在用户输入结点权值的基础上求赫夫曼编码,并能把给定的编码进行译码. 三. 实验要求 ...
LeetCode No.154,155,156
No.154 FindMin 寻找旋转排序数组中的最小值 II 题目假设按照升序排序的数组在预先未知的某个点上进行了旋转. ( 例如,数组 [0,1,2,4,5,6,7] 可能变为 [4,5,6,7 ...
使用DataSnap Server环境搭建注意的问题。
1.Data exploer 的MYSQL文件(Libmysql.dll)放到系统的system32目录即可
Spring boot 基于注解方式配置datasource
Spring boot 基于注解方式配置datasource 编辑 Xml配置我们先来回顾下,使用xml配置数据源. 步骤: 先加载数据库相关配置文件; 配置数据源; 配置sqlSessionF ...
java gc 总结
垃圾查找 1.基于计数器对象有引用计数,计数为0的,可以被收集 2.基于有向图从gc root(栈.静态变量.JNI 变量)遍历,能访问的对象,不用被收集,其他的,可以被收集因为计数器不能解决 ...
70-persistent-net.rules无法自动生成，解决方法
无法自动生成70-persistent-net.rules文件的原因: 在更换linux内核前修改ifcfg-eth0文件,更换内核,使用dhclient无法动态分配IP,删掉70-persisten ...
三角插值的 Fourier 系数推导
给定 $k$ 个互不相同的复数 $x_0,\cdots,x_{k-1}$,以及 $k$ 个复数$y_0,\cdots,y_{k-1}$.我们知道存在唯一的复系数 $k-1$ 次多项式$$\mathca ...
Yii框架的学习指南（策码秀才篇）1-3 我是这么学习的yii framework （不间断更新中）
Ⅰ.基本概念一.入口文件入口文件内容:一般格式如下:<?php $yii=dirname(__FILE__).'/../../framework/yii.php';//Yii框架位置$confi ...
java 面向对象购物车
一个商城包括多个商品.多个用户.拥有销售商品.展示商品和查找商品功能.2) 一个用户拥有一个购物车,购物车具有结算功能.3) 商城具有名称,静态字符串类型4) 用户类是抽象类,两个子 ...
First Django app(各个文件以及文件夹解析)
mkdir mysite cd mysite django-admin.py startproject mysite 执行上面的命令,得到一下内容: mysite/ manage.py mysite/ ...

推荐系统--隐语义模型LFM