推荐系统---深度兴趣网络DIN&DIEN

深度学习在推荐系统、CTR预估领域已经有了广泛应用，如wide&deep、deepFM模型等，今天介绍一下由阿里算法团队提出的深度兴趣网络DIN和DIEN两种模型

paper

DIN：https://arxiv.org/abs/1706.06978

DIEN：https://arxiv.org/abs/1809.03672

code

DIN：https://github.com/zhougr1993/DeepInterestNetwork

DIEN：https://github.com/mouna99/dien

DIN

常见的深度学习网络用于推荐或者CTR预估的模式如下：

Sparse Features -> Embedding Vector -> MLPs -> Sigmoid -> Output.

这种方法主要通过DNN网络抽取特征的高阶特征，减少人工特征组合，如wide&deep、deepFM的DNN部分均是采用这种模式，然而阿里的小组经过研究认为还有以下两种特性在线上数据中十分重要的，而当前的模型无法去挖掘

Diversity：用户在浏览电商网站的兴趣多样性。

Local activation: 由于用户兴趣的多样性，只有部分历史数据会影响到当次推荐的物品是否被点击，而不是所有的历史记录。

为了充分挖掘这些特性，联系到attention机制在nlp等领域的大获成功，阿里团队将attention机制引入推荐系统，在向量进入MLP之前先通过attention机制计算用户行为权重，让每个用户预测关注的兴趣点（行为向量）不同。

网络基本结构如上图，Base Model有一个很大的问题，它对用户的历史行为是同等对待的，没有做任何处理，这显然是不合理的。一个很显然的例子，离现在越近的行为，越能反映你当前的兴趣。因此，DIN模型对用户历史行为基于Attention机制进行一个加权

···

def din_fcn_attention(query, facts, attention_size, mask, stag='null', mode='SUM', softmax_stag=1, time_major=False, return_alphas=False, forCnn=False):

if isinstance(facts, tuple):

    # In case of Bi-RNN, concatenate the forward and the backward RNN outputs.

    facts = tf.concat(facts, 2)

if len(facts.get_shape().as_list()) == 2:

    facts = tf.expand_dims(facts, 1)

if time_major:

    # (T,B,D) => (B,T,D)

    facts = tf.array_ops.transpose(facts, [1, 0, 2])

mask = tf.equal(mask,tf.ones_like(mask))

facts_size = facts.get_shape().as_list()[-1] # Hidden size for rnn layer

query = tf.layers.dense(query,facts_size,activation=None,name='f1'+stag)

query = prelu(query)

queries = tf.tile(query,[1,tf.shape(facts)[1]]) # Batch * Time * Hidden size

queries = tf.reshape(queries,tf.shape(facts))

din_all = tf.concat([queries,facts,queries-facts,queries*facts],axis=-1) # Batch * Time * (4 * Hidden size)

d_layer_1_all = tf.layers.dense(din_all, 80, activation=tf.nn.sigmoid, name='f1_att' + stag)

d_layer_2_all = tf.layers.dense(d_layer_1_all, 40, activation=tf.nn.sigmoid, name='f2_att' + stag)

d_layer_3_all = tf.layers.dense(d_layer_2_all, 1, activation=None, name='f3_att' + stag) # Batch * Time * 1

d_layer_3_all = tf.reshape(d_layer_3_all,[-1,1,tf.shape(facts)[1]])  # Batch * 1 * time

scores = d_layer_3_all

key_masks = tf.expand_dims(mask,1) # Batch * 1 * Time

paddings = tf.ones_like(scores) * (-2 ** 32 + 1)

if not forCnn:

    scores = tf.where(key_masks, scores, paddings)  # [B, 1, T] ，没有的地方用paddings填充

# Activation

if softmax_stag:

    scores = tf.nn.softmax(scores)  # [B, 1, T]

# Weighted sum

if mode == 'SUM':

    output = tf.matmul(scores,facts) # Batch * 1 * Hidden Size

else:

    scores = tf.reshape(scores,[-1,tf.shape(facts)[1]]) # Batch * Time

    output = facts * tf.expand_dims(scores,-1) # Batch * Time * Hidden Size

    output = tf.reshape(output,tf.shape(facts))

if return_alphas:

    return output,scores

else:

    return output

···

以上是其中attention的核心代码

DIEN

在用DIN解决了用户的兴趣不同的问题后，模型还存在以下问题

1）用户的兴趣是不断进化的，而DIN抽取的用户兴趣之间是独立无关联的，没有捕获到兴趣的动态进化性

2）通过用户的显式的行为来表达用户隐含的兴趣，这一准确性无法得到保证。

为了解决以上两个问题，阿里算法又提出了DIEN模型

对比DIN的结构，主要区别在于增加了兴趣抽取层和兴趣进化层（RNN）

作者将用户行为表示为序列，利用GRU来抽取兴趣状态

在此之后，为了进一步保证兴趣抽取的准确，作者设计了一个二分类网络，用下一刻的真实行为加GRU的状态拼接作为正例，抽取的假行为拼接GRU状态作为负例，输入二分类网络

同时设计损失函数

然后，抽取完兴趣的状态送入兴趣进化网络，为了让用户兴趣也能追着时间变化，采用RNN设计，同时继承与DIN的attention机制，结合后采用了GRU with attentional update gate (AUGRU)的方法，修改了GRU的结构

此处有多种GRU结合attention的方法。

最终DIEN的实验结果表现很好

随机推荐

动态生成简约MVC请求接口|抛弃一切注解减少重复劳动吧
背景目前创建一个后端请求接口给别人提供服务,无论是使用SpringMVC方式注解,还是使用SpringCloud的Feign注解,都是需要填写好@RequestMap.@Controller.@Pa ...
SpringMVC参数返回给页面
springMVC将后台参数返回给前台页面方法一:利用ModelAndView返回值 1 @RequestMapping("/returnPage.do") 2 public M ...
Go-missing return at end of function
where? Go程序中函数在执行的时候 why? 函数有返回参数,但是函数没有return关键字,报错 way? 添加return返回函数需要返回的参数
Python-设置文件缓冲类型
案例: 将文件内容写入到硬件设备时候,使用系统调用,这类IO操作时间长,为了减小IO操作,通常会使用缓冲区(有足够多数据才能调用). 文件缓冲行为分为:全缓冲,行缓冲,无缓冲如何解决? open(' ...
【小白学PyTorch】16 TF2读取图片的方法
[新闻]:机器学习炼丹术的粉丝的人工智能交流群已经建立,目前有目标检测.医学图像.NLP等多个学术交流分群和水群唠嗑的总群,欢迎大家加炼丹兄为好友,加入炼丹协会.微信:cyx645016617. 参考 ...
STM32的CCM RAM
STM32F407ZGT6的Flash大小为1MB,SRAM大小为(128KB+64KB). 这里SRAM之所以分开表示是因为在芯片内部前面的128KB和后面的64KB地址不是连续的,后面的64KB在 ...
Python下的图像处理库，你选哪个？
奥里给~ 转载:https://blog.csdn.net/chen801090/article/details/105795068/ 在进行数字图像处理时,我们经常需要对图像进行读取.保存.缩放.裁 ...
MATLAB中conv2的详细用法（以及【matlab知识补充】conv2、filter2、imfilter函数原理）
转载: 1.https://blog.csdn.net/jinv5/article/details/52874880 2.https://blog.csdn.net/majinlei121/artic ...
【题解】hdu4757 【TJOI2018】异或
题目链接题目大意:有一颗树,有点权,每次询问:一条路径\(x->y\)中与\(z\)异或的最大值,或是以\(x\)为根的子树中与\(y\)异或的最大值. 树剖--还是算了. 观察到,子树的\( ...
2-Java面试-面向对象
Java面试问题-面向对象 Q1.什么是多态? 多态被简要描述为"一个接口,许多实现".多态性是能够在不同上下文中为某事物赋予不同含义或用法的一种特征-具体来说,就是允许诸如变量, ...

推荐系统---深度兴趣网络DIN&DIEN

推荐系统---深度兴趣网络DIN&DIEN的更多相关文章

随机推荐

热门专题