负样本采样及bias校准、ctr平滑

参考：https://zhuanlan.zhihu.com/p/31529643

在CTR预估中，负样本采样是一种常见的特征工程方法。一般CTR预估的原始正负样本比可能达到1:1000~1:10000左右，而要获取好的效果，一般需要采样到1:5~1:15之间（VC维可推导）。

我们详细分析采样对于pCTR的影响。

设采样前CTR为 $p$ ,采样后CTR为 $p'$ ,正样本数为 $a$ ,负样本数为 $b$ ,正样本采样概率为 $l$ ,负样本采样概率为 $m$ ，其中 $n=m/l$。

$ p = \frac{a}{a + b}$

$p' = \frac{la}{la + mb} = \frac{a}{(a + nb)} $

两者化简得到：$p = \frac{p'}{p' + (1 - p') / n}$

注意 $p$为我们希望得到的校准后概率；但由于我们用采样的数据进行训练，模型计算出的pCTR实际为校准前概率$p'$ 。

可以看到，负采样之后的pCTR值会被高估【$p' + (1-p')/n > 1$】。这对于一般的CTR排序影响不大，但对于DSP这类有强烈的保距需求的场景，需要将pCTR校准回对采样前的估计。

对于LR、FM等用logistics function做处理的模型，可以得到

$p' = \frac{p}{n + p -np} = \frac{1}{1 + e^{-(w^Tx + b)}}$

两者化简可得

因此可以计算出校准后的bias: $b' = b + log(n)$

参考： http://d0evi1.com/ctr-smooth/ http://www.flickering.cn/%E6%95%B0%E5%AD%A6%E4%B9%8B%E7%BE%8E/2014/06/lda%E6%95%B0%E5%AD%A6%E5%85%AB%E5%8D%A6%E8%AE%A4%E8%AF%86betadirichlet%E5%88%86%E5%B8%83/

伯努利试验（Bernoulli experiment）是在同样的条件下重复地、相互独立地进行的一种随机试验，其特点是该随机试验只有两种可能结果：发生或者不发生。

二项分布：重复n次独立的伯努利试验。在每次试验中只有两种可能的结果，而且两种结果发生与否互相对立，并且相互独立，与其它各次试验结果无关，事件发生与否的概率在每一次独立试验中都保持不变，则这一系列试验总称为n重伯努利实验，当试验次数为1时，二项分布服从0-1分布。

二项分布概率：

beta分布：beta分布可以看作一个概率的概率分布，当你不知道一个东西的具体概率是多少时，它可以给出了所有概率出现的可能性大小。beta分布的定义域是(0,1)，与概率的范围是一致的。它有两个正值参数，称为形状参数，一般用$\alpha$ 和 $\beta$表示。

Beta分布的均值是：

方差是：

https://jiayi797.github.io/2017/07/09/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E5%AE%9E%E8%B7%B5-%E8%BD%AC%E5%8C%96%E7%8E%87%E9%A2%84%E4%BC%B0%E4%B9%8B%E8%B4%9D%E5%8F%B6%E6%96%AF%E5%B9%B3%E6%BB%91/

以后再看吧～～～

负样本采样及bias校准、ctr平滑的更多相关文章

4 关于word2vec的skip-gram模型使用负例采样nce_loss损失函数的源码剖析
tf.nn.nce_loss是word2vec的skip-gram模型的负例采样方式的函数,下面分析其源代码. 1 上下文代码 loss = tf.reduce_mean( tf.nn.nce_los ...
c#解析XML文件来获得pascal_voc特定目标负样本
近期在做船仅仅识别方面的事情,须要大量的负样本来训练adaboost分类器. 我从网上下载到一个pascal_voc的数据集.须要找到不包括船仅仅的那些复制出来. 数据集特点对于每一个图片有一个xm ...
归纳学习(Inductive Learning),直推学习(Transductive Learning),困难负样本(Hard Negative)
归纳学习(Inductive Learning): 顾名思义,就是从已有训练数据中归纳出模式来,应用于新的测试数据和任务.我们常用的机器学习模式就是归纳学习. 直推学习(Transductive Le ...
【项目】百度搜索广告CTR预估
-------倒叙查看本文. 6,用auc对测试的结果进行评估: auc代码如下: #!/usr/bin/env python import sys def auc(labels,predicted_ ...
KDDCUP CTR预测比赛总结
赛题与数据介绍给定查询和用户信息后预测广告点击率搜索广告是近年来互联网的主流营收来源之一.在搜索广告背后,一个关键技术就是点击率预测-----pCTR(predict the click-thro ...
美团DSP
https://blog.csdn.net/LW_GHY/article/details/71455535 ADX出价调整, 预估ctr抽样后调整还原 2. 动态调整报价在DSP的报价环节,点击率预估 ...
DSSM在召回和粗排的应用举例
0.写在前面的话 DSSM(Deep Structured Semantic Models)又称双塔模型,因其结构简单,在推荐系统中应用广泛:下面仅以召回.粗排两个阶段的应用举例,具体描述下DSSM在 ...
GAN笔记——理论与实现
GAN这一概念是由Ian Goodfellow于2014年提出,并迅速成为了非常火热的研究话题,GAN的变种更是有上千种,深度学习先驱之一的Yann LeCun就曾说,"GAN及其变种是数十 ...
DLNg序列模型第二周NLP与词嵌入
1.使用词嵌入给了一个命名实体识别的例子,如果两句分别是“orange farmer”和“apple farmer”,由于两种都是比较常见的,那么可以判断主语为人名. 但是如果是榴莲种植员可能就无法 ...

随机推荐

python 使用 vscode 调试
vscode安装python扩展,在vscode扩展管理器中搜索pyhon, 排名第一的就是我们需要下载的包—python.点击安装后重载窗体点击调试–打开launch.json的按钮(那个小齿轮的 ...
【bzoj4966】总统选举随机化+线段树
题目描述黑恶势力的反攻计划被小C成功摧毁,黑恶势力只好投降.秋之国的人民解放了,举国欢庆.此时,原秋之国总统因没能守护好国土,申请辞职,并请秋之国人民的大救星小C钦定下一任.作为一名民主人士,小C决 ...
windows系统——常用命令
1.cleanmgr: 打开磁盘清理工具2.compmgmt.msc: 计算机管理3.conf: 启动系统配置实用程序4.charmap: 启动字符映射表5.calc: 启动计算器6.chkdsk.e ...
aplusb 数论
题目描述 SillyHook 要给小朋友出题了,他想,对于初学者,第一题肯定是a+b啊, 但当他出完数据后神奇地发现.in 不见了,只留下了一些.out,他想还原.in,但情况实在太多了,于是他想要 ...
iOS指向函数的指针和block
一:block基础知识 block基础知识基本概念:block是用来保存一段代码的:^:是block得标志好比*:是指针的标志特点:1:保存一段代码: 2:可以有参数和返回值: 3:可以作 ...
bzoj 2435 dfs处理
Description 在 W 星球上有 n 个国家.为了各自国家的经济发展,他们决定在各个国家之间建设双向道路使得国家之间连通.但是每个国家的国王都很吝啬,他们只愿意修建恰好 n – 1条双向道 ...
nginx问题
1.杀死nginx之后,找不到pid http://bbs.pxecn.com/thread-122116-1-1.html
JavaScript Array 对象的方法，比如push和unshift
https://www.runoob.com/jsref/jsref-obj-array.html js数组与字符串的相互转换一.数组转字符串需要将数组元素用某个字符连接成字符串,示例代码如下: ...
C# 获取NTP远程同步时间
收到一个需要定时同步远程服务器的需求,用C# 实现网上搜索到解决方案,代码如下: 获取远程时间参数配置:"NTPServer" 远程时间服务器地址获取远程服务器时间代码: ...
Apache Commons 工具集介绍
Apache Commons包含了很多开源的工具,用于解决平时编程经常会遇到的问题,减少重复劳动.下面是我这几年做开发过程中自己用过的工具类做简单介绍. 组件功能介绍 BeanUtils 提供了对于 ...

负样本采样及bias校准、ctr平滑

负样本采样及bias校准、ctr平滑的更多相关文章

随机推荐

热门专题