Dueling Network Architectures for Deep Reinforcement Learning ICML 2016 Best Paper 摘要:本文的贡献点主要是在 DQN 网络结构上,将卷积神经网络提出的特征,分为两路走,即:the state value function 和 the state-dependent action advantage function. 这个设计的主要特色在于 generalize learning across actions w
一.介绍 CTR预估全称是Click Through Rate,就是展示给用户的广告或者商品,估计用户点击的概率.公司规模较大的时候,CTR直接影响的价值在数十亿美元的级别.广告支付一个非常流行的模型就是CPC(cost-per-click),就是按照用户的点击来付钱.那么准确的进行CTR预估,展现给用户他们最可能点击的广告就非常重要了. 传统的CTR预估模型需要大量的特征工程,耗时耗力:引入DNN之后,依靠神经网络强大的学习能力,可以一定程度上实现自动学习特征组合.但是DNN的缺点在于隐式的学