Attention机制在深度学习推荐算法中的应用(转载)
- AFM:Attentional Factorization Machines: Learning the Weight of Feature Interactions via Attention Networks
模型入上图所示,其中sparse iput,embedding layer,pair-wise interaction layer都和FM一样,后面加入了一个attention net生成一个关于特征交叉项的权重,将FM原来的二次项累加变成加权累加。这里的attention net其实很简单,就是简单的线性变换求出权重之后再和原来的输入进行加权求和。
然后加权计算得到AFM的输出:
缺点:AFM只是在FM的基础上添加了attention的机制,但实际上只利用了加权的二次项,并没有加入更深的网络去学习更高阶的非线性交叉特征,所以它的上限和FFM很接近,没有完全发挥出dnn的优势。
2. 阿里DIN:Deep Interest Network for Click-Through Rate Prediction
用户的历史行为数据是有多个的,在计算新的候选商品的ctr时,可以将用户多个历史行为的embedding加个average pooling平均一下,但是这样没有办法建模出不同历史行为对目标预测的影响程度。DIN中加入了一种Attention机制来使得模型对用户相关的行为历史看重一些,对不相关的历史甚至可以忽略的效果。
上式中,是用户的embedding向量,是候选广告商品的embedding向量,是用户u的第i次行为的embedding向量,因为这里用户的行为就是浏览商品或店铺,所以行为的embedding的向量就是那次浏览的商品或店铺的embedding向量。从过去的加和变成了的加权和,的权重就由与的关系决定,也就是上式中的
那么怎么计算g呢,传统的做法可以直接将用户embedding u和候选商品embedding v做点积或者uWv。DIN的做法是将u、v和两者之间的差值这三个向量合并起来作为输入,输入到mlp中得到权重。
3. 阿里DIEN:Deep Interest Evolution Network
DIEN先用GRU从用户的行为序列中去抽取兴趣,然后通过带attention的GRU单元来寻找与目标item相关的兴趣点。其中attention计算方式为:
其中表示一个目标item中不同field特征的embedding向量的concat,可以看到这里的attention是一种很传统的u*W*v的方式,然后将求得的attention权重结合GRU一起使用。
4. 阿里DSIN:Deep Session Interest Network for Click-Through Rate Prediction
有三处用到了attention的结构,首先在 Session Interest Extractor Layer中,使用了transformer来处理每个session,得到一个d维的向量。多个session的d维向量经过双向LSTM得到隐层状态ht。
另外两处用到attention的地方在Session Interest Activating Layer中,使用了和DIEN中一样的attention结构来刻画用户的会话兴趣与目标物品的相关性、LSTM得到隐层状态ht与目标物品的相关性。
最后把四部分向量:用户特征向量、待推荐物品向量、会话兴趣加权向量UI、带上下文信息的会话兴趣加权向量UH进行concat,输入到全连接层中,得到输出。
5. 阿里:Behavior Sequence Transformer for E-commerce Recommendation in Alibaba
将用户的行为序列先通过embedding层处理,然后经过了一个Transformer层。
6. 阿里:Deep Spatio-Temporal Neural Networks for Click-Through Rate Prediction
输入包括目标广告的信息、上下文广告信息、点击广告信息、曝光未点击广告信息,经过embedding层,然后有两种attention方式,第一种是self-attention方式:
其实就是比如上下文的embedding表示 输入到一个函数f中,得到标量输出 ,然后通过softmax将每个上下文item的权重归一化到0-1之间,随后基于权重进行加权求和。缺点就是没有考虑target ad的信息。
另外一种attention方式是交互式的,并且加入了目标广告的信息 :
7. ATRank: An Attention-Based User Behavior Modeling Framework for Recommendation
分为原始特征空间(raw feature spaces)、行为嵌入空间(behavior embedding spaces)、隐语义空间(latent semantic spaces)、行为交互层(behavior interaction layers)、下游网络层(downstream application network)
模型中用到attention的地方在latent semantic spaces层后面,latent semantic spaces层的目的是将每个行为组中的向量通过线性变换到多个不同的语义空间,然后采用self-attention结构:
其中S是整个语义层拼接后的输出,Sk 是第 k 个语义空间上的投影。
经过 self-attention 后,第K个语义空间的向量表示为:
是将S映射到第k个语义空间的另一个转换函数,文中用的一层的MLP。
总结:可以看出深度学习推荐模型中,使用的attention可以分为两大类,一类是self-attention(比如ATRank),一类是传统的soft attention(主要都是u*W*v形式,比如DIEN,DSIN等),u表示用户行为历史中一个item的embedding,v是待推荐的目标item。求出乘积,通过softmax函数就可以得到用户历史行为中每个item的权重。另外DIN的做法比较特殊,是将u、v和两者之间的差值这三个向量合并起来作为输入,输入到mlp中得到用户历史行为中每个item的权重。
参考文献:
参考文献: https://zhuanlan.zhihu.com/p/78015378
Attention机制在深度学习推荐算法中的应用(转载)的更多相关文章
- 【AI in 美团】深度学习在OCR中的应用
AI(人工智能)技术已经广泛应用于美团的众多业务,从美团App到大众点评App,从外卖到打车出行,从旅游到婚庆亲子,美团数百名最优秀的算法工程师正致力于将AI技术应用于搜索.推荐.广告.风控.智能调度 ...
- NVIDIA GPUs上深度学习推荐模型的优化
NVIDIA GPUs上深度学习推荐模型的优化 Optimizing the Deep Learning Recommendation Model on NVIDIA GPUs 推荐系统帮助人在成倍增 ...
- 【腾讯Bugly干货分享】深度学习在OCR中的应用
本文来自于腾讯bugly开发者社区,未经作者同意,请勿转载,原文地址:http://dev.qq.com/topic/5809bb47cc5e52161640c5c8 Dev Club 是一个交流移动 ...
- 从 SGD 到 Adam —— 深度学习优化算法概览(一) 重点
https://zhuanlan.zhihu.com/p/32626442 骆梁宸 paper插画师:poster设计师:oral slides制作人 445 人赞同了该文章 楔子 前些日在写计算数学 ...
- 【深度学习】CNN 中 1x1 卷积核的作用
[深度学习]CNN 中 1x1 卷积核的作用 最近研究 GoogLeNet 和 VGG 神经网络结构的时候,都看见了它们在某些层有采取 1x1 作为卷积核,起初的时候,对这个做法很是迷惑,这是因为之前 ...
- 深度学习训练过程中的学习率衰减策略及pytorch实现
学习率是深度学习中的一个重要超参数,选择合适的学习率能够帮助模型更好地收敛. 本文主要介绍深度学习训练过程中的6种学习率衰减策略以及相应的Pytorch实现. 1. StepLR 按固定的训练epoc ...
- ui2code中的深度学习+传统算法应用
背景 在之前的文章中,我们已经提到过团队在UI自动化这方面的尝试,我们的目标是实现基于 单一图片到代码 的转换,在这个过程不可避免会遇到一个问题,就是为了从单一图片中提取出足够的有意义的结构信息,我们 ...
- 深度学习在 CTR 中应用
欢迎大家前往腾讯云技术社区,获取更多腾讯海量技术实践干货哦~ 作者:高航 一. Wide&&Deep 模型 首先给出Wide && Deep [1] 网络结构: 本质上 ...
- 转载:深度学习在NLP中的应用
之前研究的CRF算法,在中文分词,词性标注,语义分析中应用非常广泛.但是分词技术只是NLP的一个基础部分,在人机对话,机器翻译中,深度学习将大显身手.这篇文章,将展示深度学习的强大之处,区别于之前用符 ...
随机推荐
- git 判断路径是否是 git 仓库
git 判断路径是否是 git 仓库 import subprocess repo_dir = "../path/to/check/" command = ['git', 'rev ...
- BZOJ2140 稳定婚姻[强连通分量]
发现如果$B_i$和$G_j$配对,那么$B_j$又要找一个$G_k$配对,$B_k$又要找一个$G_l$配对,一直到某一个$B_x$和$G_i$配对上为止,才是不稳定的. 暴力是二分图匹配.匈牙利算 ...
- Xftp6 和 Xshell 6 下载与安装使用
官网地址:https://www.netsarang.com/zh/all-downloads/ 然后进行安装吧,基本没有什么配置. 打开 xftp 连接 Linux,进行文件操作. 然后 名称:随意 ...
- 数据结构系列文章之队列 FIFO
转载自https://mp.weixin.qq.com/s/ILgdI7JUBsiATFICyyDQ9w Osprey 鱼鹰谈单片机 3月2日 预计阅读时间: 6 分钟 这里的 FIFO 是先入先出 ...
- queue的一些用法
import queue q = queue.Queue(3)# 指定队列大小,如果为空则为无限大 print(q.empty()) q.put('厉智') q.put('程劲') q.put('陈培 ...
- PHP多维数组去重
自己写了一个实现多维数组去重的方法, 只是实现了功能, 至于性能没多管~ 可以保留key, 这个方法是针对最终的一维数组元素去重, 如果是多维数组的两个子元素是相同的数组, 是不能去重的 prote ...
- http协议。会话控制cookie、session
http协议是无状态的协议.每次访问页面的http协议都是独立的,正是因为http协议是无状态的,所以导致访问一个页面后再去访问另一个页面的时候,一些数据会消失,比如:用户的登录信息就会消失.那么怎么 ...
- SQL Update多表联合更新的方法
SQL Update多表联合更新的方法 (1) sqlite 多表更新方法 update t1 set col1=t2.col1 from table1 t1 inner join table2 t2 ...
- Gym 100548F Color 给花染色 容斥+组合数学+逆元 铜牌题
Problem F. ColorDescriptionRecently, Mr. Big recieved n flowers from his fans. He wants to recolor th ...
- ie11 div不显示背景颜色解决方案
我的一个场景就是,一个空的div,但是想加个背景颜色,方案就是在div加个空content,利用before属性加上背景<div class="hilan"></ ...