推荐系统实践 0x0f AutoRec

从这一篇开始，我们开始学习深度学习推荐模型，与传统的机器学习相比，深度学习模型的表达能力更强，并且更能够挖掘出数据中潜藏的模式。另外。深度学习模型结构也非常灵活，能够根据业务场景和数据结构进行调整。还是原来的样子，我会按照原理以及代码实现，再就是一些优缺点进行逐一介绍。

AutoRec

AutoRec可以说是最小的深度学习推荐系统了，它是一种单隐层神经网络推荐模型，将自编码器与协同过滤相结合。那么什么是自编码器呢？自编码器可以看做是一种压缩维度的工具，无论是图像、音频、还是文本，都能够通过自编码器转换成向量形式进行表达，假设我们的输入（无论是图像、音频等等）的数据向量是\(r\)，那么希望通过自编码器的输出向量尽可能接近原来的数据输入\(r\)。

假设自编码器的重建函数是\(h(r;\theta)\)，那么自编码器的目标函数是：

\[\min_{\theta}\sum_{r\in S}||r-h(r;\theta)||_2^2
\]

其中的\(S\)就是所有数据输入的向量结合。

一般来说，重建函数\(h(r;\theta)\)的参数量远远小于输入向量的维度，所以自编码器相当于完成了数据压缩和降维的工作。并且，通过自编码器生成的输出向量，使得自编码器的编码过程有一定的泛化能力，可以预测丢失的维度信息，这也是自编码器能够用于推荐系统的原因。

模型结构

在之前的文章中我们介绍了协同过滤的关键——共现矩阵。就是因为由\(m\)个用户以及\(n\)的物品形成的\(m\times n\)的共现矩阵维度太高，所以我们需要使用一个重建函数对共现矩阵里面的评分向量进行压缩，然后经过评分预估以及排序之后形成最终的排序列表。AutoRec使用了单隐层神经网络结构来实现自编码器的功能。如下图所示。

蓝色神经元代表模型的\(k\)维单隐层，也就是压缩之后的向量，\(V\)以及\(W\)代表从输入到隐层、从隐层到输出层的参数矩阵。那么写成重建函数的形式就是

\[h(r;\theta)=f(W\cdot g(Vr+\mu)+b)
\]

\(f(\cdot)\)以及\(g(\cdot)\)为输出层和隐层神经元的激活函数。为了防止重构函数（单隐层神经网络、或者说三层神经网络）的过拟合，再加上\(L2\)正则化项，那么AutoRec的目标函数就是

\[\min_{\theta}\sum_{r=1}^{n}||r^{(i)}-h(r;\theta)||_O^2+\frac{\lambda}{2}(||W||_{F}^{2}+|V||_{F}^2)
\]

\(||\cdot||_F\)为Frobenius范数.

局限性

无法进行特征交叉，表达能力相对于后面更复杂的深度学习模型还是表达能力不足。由于AutoRec的简单明了，作为入门的深度学习推荐模型再合适不过了。

代码

## 模型部分

class Autorec(nn.Module):

    def __init__(self,args, num_items):

        super(Autorec, self).__init__()

        self.args = args

        #self.num_users = num_users

        self.num_items = num_items

        self.hidden_units = args.hidden_units

        self.lambda_value = args.lambda_value

        self.encoder = nn.Sequential(

            nn.Linear(self.num_items, self.hidden_units),

            nn.Sigmoid()

        )

        self.decoder = nn.Sequential(

            nn.Linear(self.hidden_units, self.num_items),

        )

    def forward(self,torch_input):

        encoder = self.encoder(torch_input)

        decoder = self.decoder(encoder)

        return decoder

## 损失函数部分

def loss(self, decoder, input, optimizer, mask_input):

    cost = 0

    temp2 = 0

    cost += ((decoder - input) * mask_input).pow(2).sum()

    rmse = cost

    for i in optimizer.param_groups:

        for j in i['params']:

            # print(type(j.data), j.shape,j.data.dim())

            if j.data.dim() == 2:

                temp2 += torch.t(j.data).pow(2).sum()

    cost += temp2 * self.lambda_value * 0.5

    return cost, rmse

参考

AutoRec: Autoencoders Meet Collaborative Filtering

Github:NeWnIx5991/AutoRec-for-CF

随机推荐

App安全常见漏洞修复建议
ios开发对自己的app做一系列的环境检测检测Cydia是否安装检测app是否可以编辑系统文件检测系统是否包含可疑的文件检测是否有可疑的app安装如:FakeCarrier, Icy, etc ...
kali 系列学习04 - 漏洞扫描
一.比较三类漏洞扫描工具 1.Rapid7 Nexpose 适合较大网络 2.Nessus 更经济,可以申请个人版,搞之后硬盘占用达到20G 以上2个是商业软件,使用容易上手,输入IP地址就能完成所有 ...
面试腾讯，字节跳动首先要掌握的Java多线程，一次帮你全掌握！
一.程序,进程,线程联系和区别其实程序是一段静态的代码,它是应用程序执行的脚本.进程就是程序动态的执行过程,它具有动态性,并发性,独立性.线程是进程调度和执行的单位. 进程:每个进程都有独立的代码和 ...
使用ABBYY FineReader 14查看和编辑PDF
使用ABBYY FineReader,您可以轻松查看和编辑任何类型的 PDF,以及在其中添加注释和进行搜索,即使这些 PDF 是从扫描纸质文档生成.因而不包含任何可疑搜索或编辑的文本.是一款名副其实的 ...
CleanMyMac X是如何进行Mac文件清理的
Mac系统进行文件清理,一般是直接将文件拖动入"废纸篓"回收站中,然后通过清理回收站,就完成了一次文件清理的操作,但是这么做并无法保证文件被彻底删除了,有些文件通过一些安全恢复手段 ...
guitar pro系列教程（二十六）：Guitar Pro教程之虚拟吉他功能讲解
上一章节我们讲述了Guitar Pro的组织小节的相关功能,那么本章节我们还是采用图文结合的方式为大家讲解关于guitar pro中一些虚拟的吉他功能一一做出讲解,感兴趣的朋友可以一起进来学习了解哦 ...
guitar pro系列教程（三）：Guitar Pro7乐谱页面显示模式设置
大家好,又到了guitar pro系列教程的时间本章节我们采用图文结合的方式为大家讲解一下guitar pro 7乐谱的页面显示设置,有兴趣的小伙伴都可以进来看看哦.首让我们先看下图: 如上图所示, ...
Android应用测试指南
一.Android 的 SDK Windows 版本安装按顺序安装以下内容 1. 安装JDK(Java Development Kit, 即Java开发工具包) 2. 安装Eclipse 集成 ...
Java基础教程——反射机制
Java反射机制 Java反射机制是Java语言的一个重要特性,使得Java语言具备"动态性": 在运行时获取任意一个对象所属的类的相关信息; 在运行时构造任意一个类的对象: 在运 ...
.Net Core官方的 JWT 授权验证
什么是JWT? JSON Web令牌(JWT)是一个开放标准(RFC 7519),它定义了一种紧凑且自包含的方式,用于在各方之间安全地传输信息作为JSON对象.由于此信息是经过数字签名的,因此可以被验 ...

推荐系统实践 0x0f AutoRec

AutoRec

模型结构

推荐过程

局限性

代码

参考

推荐系统实践 0x0f AutoRec的更多相关文章

随机推荐

热门专题