【项目】搜索广告CTR预估(二)
项目介绍
给定查询和用户信息后预测广告点击率 搜索广告是近年来互联网的主流营收来源之一。在搜索广告背后,一个关键技术就是点击率预测-----pCTR(predict the click-through rate),由于搜索广告背后的经济模型(economic model )需要pCTR的值来对广告排名及对点击定价。本次作业提供的训练实例源于腾讯搜索引擎的会话日志(sessions logs), soso.com,要求学员们精准预测测试实例中的广告点击率。 训练数据文件TRAINING DATA FILE 训练数据文件是一个文本文件,里面的每一行都是一个训练实例(源于搜索会话日志消息)。 为了理解训练数据,下面先来看看搜索会话的描述。搜索会话是用户和搜索引擎间的交互,它由这几部分构成: 用户,用户发起的查询,一些搜索引擎返回并展示给用户的广告,用户点击过的0条或多条广告。为了更清楚地理解搜索会话,这里先介绍下术语:在一个会话中展示的广告数量被称为深度(depth), 广告在展示列表中的序号称为广告的位置(position)。广告在展示时,会展示为一条短的文本,称之为标题(title),标题后跟着一条略长些的文本和一个URL,分别叫做描述(description)和展示链接(display URL)。 我们将每个会话划分为多个实例。每个实例描述在一种特定设置(比如:具有一定深度及位置值)下展示的一条广告。为了减少数据集的大小,我们利用一致的user id, ad id, query来整理实例。因此,每个实例至少包含如下信息: UserID
AdID
Query
Depth
Position
Impression
搜索会话的数量,在搜索会话中广告(AdID)展示给了发起查询(query)的用户(UserID)。
Click
在上述展示中,用户(UserID)点击广告(AdID)的次数。 此外, 训练数据,验证数据及测试数据包含了更多的信息。原因是每条广告及每个用户拥有一些额外的属性。我们将一部分额外的属性包含进了训练实例,验证实例及测试实例中,并将其他属性放到了单独的数据文件中, 这些数据文件可以利用实例中的ids来编排索引。如果想对这类数据文件了解更多,请参考ADDITIONAL DATA FILES部分。 最后,在包括了额外特征之后,每个训练实例是一行数据(如下),这行数据中的字段由TAB字符分割: 1. Click: 前文已描述。
2. DisplayURL:广告的一个属性。
该URL与广告的title(标题)及description(描述)一起展示,通常是广告落地页的短链(shortened url)。 在数据文件中存放了该URL的hash值。
3. AdID: 前文已描述。
4. AdvertiserID : 广告的属性。
一些广告商会持续优化其广告,因此相比其他的广告商,他们的广告标题和描述会更具魅力。
5. Depth:会话的属性,前文已描述。
6. Position: 会话中广告的属性,前文已描述。
7. QueryID: 查询的id。
该id是从0开始的整数。它是数据文件'queryid_tokensid.txt'的key。
8.KeywordID : 广告的属性。
这是 'purchasedkeyword_tokensid.txt'的key。
9.TitleID: 广告的属性。
这是 'titleid_tokensid.txt'的key。
10.DescriptionID:广告的属性。
这是'descriptionid_tokensid.txt'的key。
11. UserID
这是 'userid_profile.txt'的key。当我们无法确定一个用户时,UserID为0。 附加的数据文件ADDITIONAL DATA FILES 这里还有前面提到过的5个附加的数据文件: 1. queryid_tokensid.txt 2. purchasedkeywordid_tokensid.txt 3. titleid_tokensid.txt 4. descriptionid_tokensid.txt 5. userid_profile.txt 前4个文件每一行将id映射为一个记号列表,在query(查询), keyword(关键字), ad title(广告标题)及ad description(广告描述)中都是如此。 在每一行中,TAB字符将id及其他记号集分隔开。一个记号最基本可以是自然语言中的一个词。为了匿名,每个记号以hash后的值来表示。 字段以 ‘|’分割。 ‘userid_profile.txt’ 文件的每一行由UserID, Gender, 和 Age组成,用TAB字符来分隔。注意,并非训练集和测试集中的每个UserID都会出现在‘userid_profile.txt’文件中。每个字段描述如下:
1. Gender:
'1' for male(男), '2' for female(女), and '0' for unknown(未知).
2. Age:
'1' for (0, 12], '2' for (12, 18], '3' for (18, 24], '4' for (24, 30], '5'
for (30, 40], and '6' for greater than 40(6代表大于40). TESTING DATASET(测试数据集) 除了广告展示及广告点击的数量不同外,测试数据集与训练数据集的格式一致。 广告展示及广告点击次数用于计算先验的点击率(empirical CTR)。 训练集的子集用于在leaderboard上对提交或更新的结果进行排名。测试集用于选举最终冠军。用于生成训练集的日志与之前生成训练集的日志相同。
1. CTR预估的流程
数据 -》 预处理 -》特征抽取 -》模型训练 -》后处理
特征决定了达到好的评价指标的上限,模型决定了接近这个上限的程度。
2. 数据预处理
label匹配:展示日志和点击日志做一个join
采样: 负采样(广告点击率很低,随机丢弃一部分负样本
组合相关信息: 相关信息需要到别的文件中去找,所以需要组合相关信息。比如:如果需要查看某个query_id代表的是什么,需要去id号对应的txt中查询: cat queryid_tokensid.txt | awk '$1 == 14092{print $0}' | head
每次都这样操作会比较麻烦,所以需要直接把这些信息组合到训练数据中去。这就是数据预处理里面的特征组合:Join
2.1 join的shell命令是:
先对两个文件按照他们要join的对象进行排序:然后进行join。这个join的key会被放到文件的第一列。
awk详解:http://www.cnblogs.com/ggjucheng/archive/2013/01/13/2858470.html
sort详解:http://www.2cto.com/os/201304/203309.html
join详解:http://www.cnblogs.com/agilework/archive/2012/04/18/2454877.html
先sort
sort -t $'\t' -k 7,7 train >train_sort
sort -t $'\t' -k 1,1 queryid_tokensid.txt > queryid_sort 然后join
join -t $'\t' -1 7 -2 1 -a 1 train_sort queryid_sort >train1
join之后看一下多少行,来验证是否join进去了。发现从11列变成了12列。代码如下:
head train | awk '{print NF} 显示11列
head train1 | awk '{print NF}显示12列
写了一个脚本来进行这几部操作,因为key列会跑到第一列,所以做了一下调整。join代码如下:
#! /bin/bash
sort -t $'\t' -k "$2,$2" $1 >t1 sort -t $'\t' -k "$4,$4" $3 >t2 join -t $'\t' -1 $2 -2 $4 t1 t2 -a 1|awk -v n=$2 '{
s=$2;
for(i=3;i<=n;++i){
s=s"\t"$i
}
s=s"\t"$1;
for(i=n+1;i<=NF;++i){
s=s"\t"$i
}
print s
}' #rm -f t1 t2
使用join.sh对每一个文件进行join,命令如下:
bash join.sh train 7 queryid_tokensid.txt 1 > train1
bash join.sh train1 8 purchasedkeywordid_tokensid.txt 1 > train2
bash join.sh train2 9 titleid_tokensid.txt 1 > train3
bash join.sh train2 10 descriptionid_tokensid.txt 1 > train4
bash join.sh train4 11 userid_profile.txt 1 > train5
2.2 负采样代码
awk 'BEGIN{srand()}{if($1==1)print $0;if($1==0)if(rand() > 0.5)print $0}' train_combined > t 数一下行数:
wc -l t
wc -l train5
2.3 shuffle
洗牌一下。把train和validate数据给分出来:
这里的数据把train里面的数据分成7:3的训练数据和验证数据。
数据说明:train是用来调特征的。validate是用来做验证的,也就是把那个train_data所出来的weights来算一下validate。
clear
[s-44@CH-46 mydata2]$ sort -R train_combined > train_shuffle
head -n 700000 train_shuffle > train_data
tail -n 300000 train_shuffle > validate_data
3. 特征工程
用户特征:userid, gender, age
广告特征:adid, advertesierid, titleid,keywordid, descriptionid
上下文特征:depth, position
High Level 特征:范化能力比较强的特征。四川人能吃辣。
Low Level 特征:自解释能力比较强。我朋友A能吃辣。id号
通常从刻画能力和覆盖率两个方面评判特征。
3.1 one hot encoding
这里使用 one hot encoding.因为数据量不大,直接使用map.数据量大的话可以使用hash。得到的是一个稀疏矩阵,采用稀疏矩阵表示,记录哪里有“1”即可。
#!/usr/bin/env python
# -*- coding: utf-8 -*- import os
import sys file = open(sys.argv[1],"r")
toWrite = open(sys.argv[2],"w+")
#feature_index表示最大的编号,函数的主要目的是产生唯一的id号,方法是前缀+id
feature_map={}
feature_index=0
def processIdFeature(prefix, id): global feature_map global feature_index str = prefix + "_" + id if str in feature_map:
return feature_map[str]
else:
feature_index = feature_index + 1
feature_map[str] = feature_index
return feature_index #这些特征加进去不一定管用,需要自己试验. lis里面存的是他在map里面的值
def extracFeature1(seg): list=[] list.append(processIdFeature("url",seg[1])) list.append(processIdFeature("ad",seg[2])) list.append(processIdFeature("ader",seg[3])) list.append(processIdFeature("depth",seg[4])) list.append(processIdFeature("pos",seg[5])) list.append(processIdFeature("query",seg[6])) list.append(processIdFeature("keyword",seg[7])) list.append(processIdFeature("title",seg[8])) list.append(processIdFeature("desc",seg[9]))
list.append(processIdFeature("user",seg[10])) return list def extracFeature2(seg): depth = float(seg[4])
pos = float(seg[5])
id = int (pos*10/depth)
return processIdFeature("pos_ratio",str(id)) def extracFeature3(seg): list=[]
if(len(seg)>16):
str = seg[2] + "_" + seg[15]
list.append(processIdFeature("user_gender",str))
return list def toStr(label, list):
line=label
for i in list:
line = line + "\t" +str(i) + ":1"# 这里的str(i)是指把i变成字符串
return line for line in file:
seg = line.strip().split("\t")
list = extracFeature1(seg)
#list.append(extracFeature2(seg))
#list.extend(extracFeature3(seg))
toWrite.write(toStr(seg[0],list)+"\n") toWrite.close
对训练集和验证集进行encoding
python feature_map.py train_data train_feature
python feature_map.py validate_data validate_feature
如果使用Hash的话:
HASH_SIZE = 1000000
def processIdFeature(prefix, id):
str = prefix + "_" + id
return hash(str) % HASH_SIZE
#接下来代码都一样
3.2 离散化
为什么要离散化?
离散化方法
比如说这里可以组合depth和pos,广告排在前1/3 中间 后边 的点击率感觉明显不同,所以这里可以使用pos / depth的离散化值来进行新特征的创建。
3.3 特征组合
特征种类内部做组合,比如广告内部特征,用户内部特征等,提高自身的刻画能力,自解释能力。但也会带来覆盖率低的问题。
特征种类之间做组合,比如用户和广告类型。提高表达关系的能力。比如这个广告在哪段时间点击率高等。
特征工程总结:
0.对于显示特征,采用onehotencoding的方法构建特征。
1.广告位置特征:使用depth - pos / depth 离散化来构建特征
3.广告与用户检索相似性特征:分别处理用户query与广告description,title,keywords之间的相似性,以query和description为例,使用所有广告的description作为一个语料库,然后看多少广告包含了我这个query,得到一个逆文档频率,然后在用得到这个query出现的一个频率(当前包含几个除以最大那个包含几个),通过TF-IDF计算这种相似度。
4.广告类别特征。根据用户的搜索关键字和广告的购买关键字集合做一个交集,之后得到触发关键字。每一个广告有一个触发关键字,可以利用触发关键字来定义两个广告之间的相似度(计算余弦相似度),以此为依据做一个k均值聚类。然后每一个广告做一个类标注,作为一个特征,找到每个类的topK个平凡的词语作为类标记。之后测试数据的时候,分别与这些类标记向量进行余弦相似度计算看属于哪个类。
5.广告质量的衡量。广告的质量主要主要看广告的title, discription, keywords之间的相似性,可以使用余弦相似度来度量。
4. 模型训练
特征处理完之后,使用Logestic回归进行建模如下
建模代码train.py如下:
#!/usr/bin
# -*- coding:utf-8 -*-
import random
import math alpha = 0.1
iter = 1
l2 = 1 #拉姆达 file =open("train_feature","r") max_index = 0
#拿到一个维度坐标最大值.找出这个map到底有多大,特征向量到底有多长
for f in file :
seg = f.strip().split("\t")
for st in seg[1:]: #0不要,0是label
index = int(st.split(":")[0])
if index > max_index :
max_index = index weight = range (max_index+1)
for i in range(max_index+1):
weight[i]=random.uniform(-0.01,0.01) #初始化成-0.1 到 0.1 for i in range(iter):
file = open("train_feature","r")
for f in file:
seg = f.strip().split("\t")
label = int (seg[0])
s = 0.0
for st in seg[1:]:
index = int (st.split(":")[0])
#val = float(st.split(":")[1])
s += weight[index] #特征值为1.其实就是一个大特征,出现了的是1,没出现的就是0.
# s+=weight[index]
p = 1.0/(1 + math.exp(-s)) #上面算出了wt * x。这里算的是sigmoid函数,也就是预测值是多少
#梯度 == 预测值 - label。本来还要 * x的,但是因为x 都为1,所以。
g = p - label #这是算出来了梯度是多少。
for st in seg[1:]:
index = int(st.split(":")[0])
weight[index]-=alpha* (g +l2 * weight[index]) # w == w - alpha * (梯度g + 拉姆达l2 * w) #在validate_feature上验证我们的预测效果是怎么样的。
file = open("validate_feature","r")
toWrite = open("pctr","w+") #pctr存的是预测出来的结果 代表的是实际是什么,预测出来是什么。
for f in file :
seg = f.strip().split("\t")
lable = int (seg[0])
s = 0.0
for st in seg[1:]:
index = int(st.split(":")[0])
s+= weight[index]
p = 1.0 /(1 + math.exp(-s))
s = seg[0] + "," + str(p) + "\n"
toWrite.write(s) toWrite.close()
如果使用AdaGrad算法的话就是梯度下降的步长不是固定的。是要除以梯度的累加和,这样导致后边的步长变小。
然后执行:
python train.py
最后生成pctr文件:第一列表示validate里面的真实值,第二列表示预测出来pctr。
5. 评价指标AUC
auc代码如下:
#!/usr/bin/env python import sys
def auc(labels,predicted_ctr):
i_sorted = sorted(range(len(predicted_ctr)),key = lambda i : predicted_ctr[i],reverse = True)
auc_temp = 0.0
tp = 0.0
tp_pre = 0.0
fp = 0.0
fp_pre = 0.0
last_value = predicted_ctr[i_sorted[0]]
for i in range(len(labels)):
if labels[i_sorted[i]] > 0:
tp+=1
else:
fp+=1
if last_value != predicted_ctr[i_sorted[i]]:
auc_temp += ( tp + tp_pre ) * ( fp - fp_pre) / 2.0
tp_pre = tp
fp_pre = fp
last_value = predicted_ctr[i_sorted[i]]
auc_temp += ( tp + tp_pre ) * ( fp -fp_pre ) / 2.0
return auc_temp / (tp * fp) def evaluate(ids,true_values,predict_values):
labels = []
predicted_ctr = []
for i in range(len(ids)):
labels.append(int(true_values[i]))
predicted_ctr.append(float(predict_values[i]))
return auc(labels,predicted_ctr) if __name__ == "__main__":
f = open(sys.argv[1],"r")
ids = []
true_values = []
predict_values = []
for line in f:
seg = line.strip().split(",")
ids.append(seg[0])
true_values.append(seg[1])
predict_values.append(seg[2])
print evaluate(ids,true_values,predict_values)
执行代码如下:
cat pctr | awk '{print NR "," $0}' > t
python auc.py t
【项目】搜索广告CTR预估(二)的更多相关文章
- 【项目】百度搜索广告CTR预估
-------倒叙查看本文. 6,用auc对测试的结果进行评估: auc代码如下: #!/usr/bin/env python import sys def auc(labels,predicted_ ...
- 【项目】搜索广告CTR预估(一)
本文介绍CTR相关基础知识. 一.广告投放系统 广告系统包含多个子系统.除了上图所示的广告投放系统外,还包含商业系统(广告库的获得),统计系统(点击展示日志的获得)等. 广告投放系统主要是面向用户的, ...
- (1)搜索广告CTR预估
https://www.cnblogs.com/futurehau/p/6181008.html 一.广告投放系统 广告系统包含多个子系统.除了上图所示的广告投放系统外,还包含商业系统(广告库的获得) ...
- (2)搜索广告CTR预估
https://www.cnblogs.com/futurehau/p/6184585.html 1. CTR预估的流程 数据 -> 预处理 ->特征抽取 ->模型训练 ->后 ...
- 计算广告CTR预估系列(七)--Facebook经典模型LR+GBDT理论与实践
计算广告CTR预估系列(七)--Facebook经典模型LR+GBDT理论与实践 2018年06月13日 16:38:11 轻春 阅读数 6004更多 分类专栏: 机器学习 机器学习荐货情报局 版 ...
- 闲聊DNN CTR预估模型
原文:http://www.52cs.org/?p=1046 闲聊DNN CTR预估模型 Written by b manongb 作者:Kintocai, 北京大学硕士, 现就职于腾讯. 伦敦大学张 ...
- PaddlePaddle分布式训练及CTR预估模型应用
前言:我在github上创建了一个新的repo:PaddleAI, 准备用Paddle做的一系列有趣又实用的案例,所有的案例都会上传数据代码和预训练模型,下载后可以在30s内上手,跑demo出结果,让 ...
- 项目 CTR预估
项目和数据介绍 给定查询和用户信息后预测广告点击率 搜索广告是近年来互联网的主流营收来源之一.在搜索广告背后,一个关键技术就是点击率预测-----pCTR(predict the click-thro ...
- 广告点击率 CTR预估中GBDT与LR融合方案
http://www.cbdio.com/BigData/2015-08/27/content_3750170.htm 1.背景 CTR预估,广告点击率(Click-Through Rate Pred ...
随机推荐
- App.Config详解及读写操作
App.Config详解及读写操作 App.Config详解 应用程序配置文件是标准的 XML 文件,XML 标记和属性是区分大小写的.它是可以按需要更改的,开发人员可以使用配置文件来更改设置,而 ...
- 【javascript 面试笔试】1、几道笔试题
今天想起来几道javascript的面试题,大家做做看看,有别的思路可以在下面写出来,大家交流一下 (1) 将多维数组转化成一个一位数组,例如[1,[2,3],[4,5,[6,7]]]转化成[1,2, ...
- Oracle行转列操作
有时候我们在展示表中数据的时候,需要将行转为列来显示,如以下形式: 原表结构展示如下:---------------------------产品名称 销售额 季度------------ ...
- apache配置Allow详解及25个常见问题
http://www.cnblogs.com/top5/archive/2009/09/22/1571709.html apache常见25个问题:http://blog.csdn.net/keda8 ...
- 利用SQL注入漏洞登录后台的实现方法
利用SQL注入漏洞登录后台的实现方法 作者: 字体:[增加 减小] 类型:转载 时间:2012-01-12我要评论 工作需要,得好好补习下关于WEB安全方面的相关知识,故撰此文,权当总结,别无它意.读 ...
- ubuntu 13.10 monodevelop3 安装
版本 ubuntu 13.10 桌面模式默认:unity :文件管理器:nautilus
- linux svn hooks代码自动更新至项目
由于开发移动端web,ui需要及时看到样式变化,所以通过svn hooks(钩子)来提交文件,然后再把文件同步到测试服务器项目目录,步骤如下: 1.进入 /home/svn/cmall/hooks ( ...
- 把CMSampleBufferRef转成Data
CMSampleBufferRef ref=[output copyNextSampleBuffer]; NSLog(@"%@",ref); if(ref==NULL) break ...
- @override的意思
@Override是Java5的元数据,自动加上去的一个标志,告诉你说下面这个方法是从父类/接口 继承过来的,需要你重写一次,这样就可以方便你阅读,也不怕会忘记 @Override是伪代码,表示重写( ...
- bzoj1051 [HAOI2006]受欢迎的牛
1051: [HAOI2006]受欢迎的牛 Time Limit: 10 Sec Memory Limit: 162 MBSubmit: 4773 Solved: 2541[Submit][Sta ...