问题描述

ctr的全称是click through rate,就是预估用户的点击率,可以用于推荐系统的ranking阶段。ctr预估可以理解为给用户的特征、item的特征以及context的特征(比如日期,时间等),然后计算出user item pair的点击率。

问题定义

P(Y=1|X_{user},X_{item},X_{context})

就是计算上面的概率。

模型梳理

LR、SVM等线性模型

线性模型的特点是将用户特征,Item特征以及Context特征做一些预处理,然后concat后输入到模型里面,预处理包括连续特征做归一化,类别特征会做one hot编码。

xgboost、lightgbm 树模型

树模型和线性模型的做法差不多,也是将三类特征concat之后一起输入到模型,就能得到结果。

和线性模型的不同点:

  • 连续值特征无需做归一化
  • 单值类别特征(比如性别,只能是男或者女),无需做one hot编码,多值类别模型还是需要做one hot编码。

POLY2多项式模型

前两类模型都是考虑的单特征对最终决策的影响,但是都没有显式的考虑特征交叉对最终决策的影响。比如:双十一之前推荐淘宝app的点击率应该要高于双十一之后(这里说显式是因为,树模型也能部分考虑这个因素)。

PLOY2模型就直接将所有特征的交叉作为新的特征,输入到模型里面,将交叉属性对决策的影响从隐性提高到显性。

缺点:

  • 特征太多,而且非常稀疏,很多特征在训练中没有出现过

FM 因子机模型

FM模型可以理解为给每一个特征学到一个embedding,然后交叉模型的权重就理解为对应embeeding的内积。这样就能解决PLOY2的问题,没有出现的特征对也能得到权重,只要这个特征和其他特征出现过就能学到一个embedding,就能得到权重。

FFM

FFM是对FM的一个改进,FM给一个特征只学到一个embedding,而FFM能给每一个特征和另一个属性域都学习一个embedding。

缺点:

  • 每一个特征对对都能得到一个权重,但是有可能并不是合适的,因为有可能这俩特征并不是能对决策起相关作用的。
  • 只能考虑特征对的决策的作用,多维属性交叉就没有考虑了

Wide and Deep

Wide and Deep模型可以理解为FM和POLY2的结合,作者认为FM模型过于泛化,而PLOY2模型过于记忆(记忆的含义是只能学到训练数据中存在的特征对),那就两者结合到一起好了。

wide部分考虑的是显式的特征对对决策的影响,deep部分是隐式的特征,特征对以及高阶特征对决策的影响。

DeepFM 神经网络因子机

这个模型和FM的思路有一定的类似,都是给特征学习embedding,然后用embedding来学习特征之间交叉的关系。

DeepFM可以理解为wide and deep的中wide部分的扩展,wide and deep中特征交叉是手动选择某些特征进行交叉,而DeepFM是对所有特征对进行交叉。

不同点:

FM是将embedding的内积作为特征对的权重,过于粗暴,而且只能考虑两个特征之间的关系,但是多个特征之间的关系就很难学到了。

DNN的非线性能更好的学习到特征之间的关系。

以上只是个人对模型的梳理和个人理解,肯定有不到位之处,欢迎留言指点。

ctr预估论文梳理和个人理解的更多相关文章

  1. 微软的一篇ctr预估的论文:Web-Scale Bayesian Click-Through Rate Prediction for Sponsored Search Advertising in Microsoft’s Bing Search Engine。

    周末看了一下这篇论文,觉得挺难的,后来想想是ICML的论文,也就明白为什么了. 先简单记录下来,以后会继续添加内容. 主要参考了论文Web-Scale Bayesian Click-Through R ...

  2. (读论文)推荐系统之ctr预估-DeepFM模型解析

    今天第二篇(最近更新的都是Deep模型,传统的线性模型会后面找个时间更新的哈).本篇介绍华为的DeepFM模型 (2017年),此模型在 Wide&Deep 的基础上进行改进,成功解决了一些问 ...

  3. 深度学习在CTR预估中的应用

    欢迎大家前往腾讯云+社区,获取更多腾讯海量技术实践干货哦~ 本文由鹅厂优文发表于云+社区专栏 一.前言 二.深度学习模型 1. Factorization-machine(FM) FM = LR+ e ...

  4. 闲聊DNN CTR预估模型

    原文:http://www.52cs.org/?p=1046 闲聊DNN CTR预估模型 Written by b manongb 作者:Kintocai, 北京大学硕士, 现就职于腾讯. 伦敦大学张 ...

  5. 深度CTR预估模型中的特征自动组合机制演化简史 zz

    众所周知,深度学习在计算机视觉.语音识别.自然语言处理等领域最先取得突破并成为主流方法.但是,深度学习为什么是在这些领域而不是其他领域最先成功呢?我想一个原因就是图像.语音.文本数据在空间和时间上具有 ...

  6. CTR预估经典模型总结

    计算广告领域中数据特点:    1 正负样本不平衡    2 大量id类特征,高维,多领域(一个类别型特征就是一个field,比如上面的Weekday.Gender.City这是三个field),稀疏 ...

  7. 计算广告CTR预估系列(七)--Facebook经典模型LR+GBDT理论与实践

    计算广告CTR预估系列(七)--Facebook经典模型LR+GBDT理论与实践 2018年06月13日 16:38:11 轻春 阅读数 6004更多 分类专栏: 机器学习 机器学习荐货情报局   版 ...

  8. 【项目】百度搜索广告CTR预估

    -------倒叙查看本文. 6,用auc对测试的结果进行评估: auc代码如下: #!/usr/bin/env python import sys def auc(labels,predicted_ ...

  9. CTR预估评价指标介绍

    1 离线指标 1.1 LogLoss 1.1.1 KL散度 logloss使用KL散度来计算.设样本的真实分布为P,预测分布为Q,则KL散度定义如下: 这里可以通俗地把KL散度理解为相同事件空间里两个 ...

随机推荐

  1. IDEA提示找不到Mapper接口:Could not autowire.No beans of 'xxxMapper' type found

    前言 相信大多数互联网公司的持久层框架都是使用 Mybatis 框架,而大家在 Service 层引入自己编写的 Mapper 接口时应该会遇到下面的情况: 我们可以看到,上面的红色警告在提示我们,找 ...

  2. 关于mybtis 使用过程中发生There is no getter for property named 'id' in class 'java.lang.String' 错误

    今天在修改一个关于mybtis语句时,偶然发现的一个错误  There is no getter for property named 'id' in class 'java.lang.String' ...

  3. Vue Cli3 中别名的配置问题

    Vue Cli3 中别名的配置问题 vue-cli3中是没有config.build等目录的,这是因为vue-cli3中将这些配置隐藏起来了,如果想要修改,可以在vue.config.js文件中进行修 ...

  4. MySQL数据库:注释及数据类型

    注释 /* 多行注释 */ # 单行注释 -- 单行注释(注意:两个但横线后面必须加空格) 数据类型 1.整形 ​ tinyint.smallint.mediumint.int.bigint ​ 小整 ...

  5. mysql语法总结及例子

    1. DDL相关 a. -- 查询所有数据库 show databases;-- 删除数据库drop database ladeng; b. -- use `数据库名称`; 表示使用此数据库 use ...

  6. 201871010135 张玉晶 《面向对象程序设计(java)》 第一周学习总结

    项目 内容 这个作业属于哪个课程 https://www.cnblogs.com/nwnu-daizh/ 这个作业的要求在哪里 https://www.cnblogs.com/wyt0455820/ ...

  7. MySQL中count和sum使用

    count COUNT()函数里面的参数是列名的的时候,那么会计算有值项的次数.(NULL 不计入, 但是''值计入) COUNT(*)可以计算出行数,包括null COUNT(1)也可以计算出行数, ...

  8. 关于scanf的一些知识

    10.22,对现阶段已知道的scanf的一些用法或注意事项的一些总结: 1.scanf中,赋值的那个数据前面一定加&! 2.若情景要求必须输入空格的,scanf("%d%c%d&qu ...

  9. CF1254D Tree Queries(树链剖分)

    出题人的做法是 \(O(n\sqrt{n\log n})\),结果这场结束后就被狂喷,一群人给出了 \(O(n\sqrt{n})\) 做法,甚至 \(O(n\log n)\) 都出来了-- 首先发现, ...

  10. vb.net 带有一个参数的线程

    For Each _row As DataGridViewRow In datagridview.Rows 'searchRecords_refreshRow(_row) ' 上面以前,直接运行函数, ...