赛题与数据介绍

  1. 给定查询和用户信息后预测广告点击率
  2.  
  3. 搜索广告是近年来互联网的主流营收来源之一。在搜索广告背后,一个关键技术就是点击率预测-----pCTR(predict the click-through rate),由于搜索广告背后的经济模型(economic model )需要pCTR的值来对广告排名及对点击定价。本次比赛提供的训练实例源于腾讯搜索引擎的会话日志(sessions logs), soso.com,要求参赛者精准预测测试实例中的广告点击率。
  4.  
  5. 训练数据文件TRAINING DATA FILE
  6.  
  7. 训练数据文件是一个文本文件,里面的每一行都是一个训练实例(源于搜索会话日志消息)。 为了理解训练数据,下面先来看看搜索会话的描述。搜索会话是用户和搜索引擎间的交互,它由这几部分构成: 用户,用户发起的查询,一些搜索引擎返回并展示给用户的广告,用户点击过的0条或多条广告。为了更清楚地理解搜索会话,这里先介绍下术语:在一个会话中展示的广告数量被称为深度(depth), 广告在展示列表中的序号称为广告的位置(position)。广告在展示时,会展示为一条短的文本,称之为标题(title),标题后跟着一条略长些的文本和一个URL,分别叫做描述(description)和展示链接(display URL)。
  8.  
  9. 我们将每个会话划分为多个实例。每个实例描述在一种特定设置(比如:具有一定深度及位置值)下展示的一条广告。为了减少数据集的大小,我们利用一致的user id, ad id, query来整理实例。因此,每个实例至少包含如下信息:
  10.  
  11. UserID
  12. AdID
  13. Query
  14. Depth
  15. Position
  16. Impression
  17. 搜索会话的数量,在搜索会话中广告(AdID)展示给了发起查询(query)的用户(UserID)。
  18. Click
  19. 在上述展示中,用户(UserID)点击广告(AdID)的次数。
  20.  
  21. 此外, 训练数据,验证数据及测试数据包含了更多的信息。原因是每条广告及每个用户拥有一些额外的属性。我们将一部分额外的属性包含进了训练实例,验证实例及测试实例中,并将其他属性放到了单独的数据文件中, 这些数据文件可以利用实例中的ids来编排索引。如果想对这类数据文件了解更多,请参考ADDITIONAL DATA FILES部分。
  22.  
  23. 最后,在包括了额外特征之后,每个训练实例是一行数据(如下),这行数据中的字段由TAB字符分割:
  24.  
  25. 1. Click 前文已描述。
  26. 2. DisplayURL:广告的一个属性。
  27. URL与广告的title(标题)及description(描述)一起展示,通常是广告落地页的短链(shortened url)。 在数据文件中存放了该URLhash值。
  28. 3. AdID: 前文已描述。
  29. 4. AdvertiserID 广告的属性。
  30. 一些广告商会持续优化其广告,因此相比其他的广告商,他们的广告标题和描述会更具魅力。
  31. 5. Depth:会话的属性,前文已描述。
  32. 6. Position 会话中广告的属性,前文已描述。
  33. 7. QueryID 查询的id
  34. id是从0开始的整数。它是数据文件'queryid_tokensid.txt'key
  35. 8.KeywordID : 广告的属性。
  36. 这是 'purchasedkeyword_tokensid.txt'key
  37. 9.TitleID: 广告的属性。
  38. 这是 'titleid_tokensid.txt'key
  39. 10.DescriptionID:广告的属性。
  40. 这是'descriptionid_tokensid.txt'key
  41. 11. UserID
  42. 这是 'userid_profile.txt'key。当我们无法确定一个用户时,UserID0
  43.  
  44. 附加的数据文件ADDITIONAL DATA FILES
  45.  
  46. 这里还有前面提到过的5个附加的数据文件:
  47.  
  48. 1. queryid_tokensid.txt
  49.  
  50. 2. purchasedkeywordid_tokensid.txt
  51.  
  52. 3. titleid_tokensid.txt
  53.  
  54. 4. descriptionid_tokensid.txt
  55.  
  56. 5. userid_profile.txt
  57.  
  58. 4个文件每一行将id映射为一个记号列表,在query(查询), keyword(关键字), ad title(广告标题)及ad description(广告描述)中都是如此。 在每一行中,TAB字符将id及其他记号集分隔开。一个记号最基本可以是自然语言中的一个词。为了匿名,每个记号以hash后的值来表示。 字段以 ‘|’分割。
  59.  
  60. userid_profile.txt 文件的每一行由UserID, Gender, Age组成,用TAB字符来分隔。注意,并非训练集和测试集中的每个UserID都会出现在‘userid_profile.txt’文件中。每个字段描述如下:
  61. 1. Gender:
  62. '1' for male(男), '2' for female(女), and '0' for unknown(未知).
  63. 2. Age:
  64. '1' for (0, 12], '2' for (12, 18], '3' for (18, 24], '4' for (24, 30], '5'
  65. for (30, 40], and '6' for greater than 406代表大于40).
  66.  
  67. TESTING DATASET(测试数据集)
  68.  
  69. 除了广告展示及广告点击的数量不同外,测试数据集与训练数据集的格式一致。 广告展示及广告点击次数用于计算先验的点击率(empirical CTR)。 训练集的子集用于在leaderboard上对提交或更新的结果进行排名。测试集用于选举最终冠军。用于生成训练集的日志与之前生成训练集的日志相同。

0,CTR预估的流程:

数据-》预处理数据-》特征抽取-》模型训练-》后处理。

特征决定了达到好的评价指标的天花板,好的模型决定了到达这个天花板的能力。所以,特征的处理是非常重要的。

1.join

特征在预处理的时候要进行相关信息组合 Linux的join相关:(注意sort a > a没有-o会清空内容.应该用sort a -o a)

http://www.runoob.com/linux/linux-comm-join.html

http://www.cnblogs.com/51linux/archive/2012/05/23/2515299.html

join之前要排序。

关于数据集:如果要看某个id好代表什么,都可以去他的id号对应的txt查询:cat queryid_tokensid.txt | awk '$1 == 14092{print $0}' | head

那么,每一次每个样本都还要去txt里面找它对应的信息,就会导致非常繁琐。那么需要这些特征,就可以把他们整合在一起。

这就是数据预处理里面的特征组合:Join:

join的shell命令是:先对两个文件按照他们要join的对象进行排序:然后进行join。这个join的key会被放到文件的第一列。

代码如下:

  1. sort
  2. sort -t $'\t' -k 7,7 train >train_sort
  3. sort -t $'\t' -k 1,1 queryid_tokensid.txt > queryid_sort
  4.  
  5. 然后join
  6. join -t $'\t' -1 7 -2 1 -a 1 train_sort queryid_sort >train1

join之后看一下多少行,来验证是否join进去了。发现从11列变成了12列。代码如下:

  1. head train | awk '{print NF} 显示11列
  2. head train1 | awk '{print NF}显示12

写了一个脚本来进行这几部操作,因为key列会跑到第一列,所以做了一下调整。join代码如下:

  1. #! /bin/bash
  2. sort -t $'\t' -k "$2,$2" $1 >t1
  3.  
  4. sort -t $'\t' -k "$4,$4" $3 >t2
  5.  
  6. join -t $'\t' -1 $2 -2 $4 t1 t2 -a 1|awk -v n=$2 '{
  7. s=$2;
  8. for(i=3;i<=n;++i){
  9. s=s"\t"$i
  10. }
  11. s=s"\t"$1;
  12. for(i=n+1;i<=NF;++i){
  13. s=s"\t"$i
  14. }
  15. print s
  16. }'
  17.  
  18. #rm -f t1 t2

使用join.sh对每一个文件进行join,命令如下:

  1. bash join.sh train 7 queryid_tokensid.txt 1 > train1
  2. bash join.sh train1 8 purchasedkeywordid_tokensid.txt 1 > train2
  3. bash join.sh train2 9 titleid_tokensid.txt 1 > train3
  4. bash join.sh train2 10 descriptionid_tokensid.txt 1 > train4
  5. bash join.sh train4 11 userid_profile.txt 1 > train5

2,负样本采样,对负样本进行随机丢弃,代码:

  1. awk 'BEGIN{srand()}{if($1==1)print $0;if($1==0)if(rand() > 0.5)print $0}' train_combined > t
  2.  
  3. 数一下行数:
  4. wc -l t
  5. wc -l train5

对负样本采样的原因:

在负样本较多的情况下,为了实现更加准确的预测,需要更大的数据集来获得更多的正样本,对负样本进行采样以后,在样本集大小变小的情况下,正样本的比率增大了。

总样本数1亿条左右,其中正样本数100万条,采样之后正负样本比例1:5,也试过1:4,1:6,1:5效果比较好。采样是用hadoop streaming实现的。

3,洗牌一下。把train和validate数据给分出来

这里的数据把train里面的数据分成7:3的训练数据和验证数据。

数据说明:train是用来调特征的。validate是用来做验证的,也就是把那个train_data所出来的weights来算一下validate。

  1. clear
  2. [s-44@CH-46 mydata2]$ sort -R train_combined > train_shuffle
  1. head -n 700000 train_shuffle > train_data
  2. tail -n 300000 train_shuffle > validate_data

4,特征处理方法:

这里用one hot encoding处理。下面是代码feature_map.py:

  1. #!/usr/bin/env python
  2. # -*- coding: utf-8 -*-
  3.  
  4. import os
  5. import sys
  6.  
  7. file = open(sys.argv[1],"r")
  8. toWrite = open(sys.argv[2],"w+")
  9. #feature_index表示最大的编号,函数的主要目的是产生唯一的id号,方法是前缀+id
  10. feature_map={}
  11. feature_index=0
  12. def processIdFeature(prefix, id):
  13.  
  14. global feature_map
  15.  
  16. global feature_index
  17.  
  18. str = prefix + "_" + id
  19.  
  20. if str in feature_map:
  21. return feature_map[str]
  22. else:
  23. feature_index = feature_index + 1
  24. feature_map[str] = feature_index
  25. return feature_index
  26.  
  27. #这些特征加进去不一定管用,需要自己试验. lis里面存的是他在map里面的值
  28. def extracFeature1(seg):
  29.  
  30. list=[]
  31.  
  32. list.append(processIdFeature("url",seg[1]))
  33.  
  34. list.append(processIdFeature("ad",seg[2]))
  35.  
  36. list.append(processIdFeature("ader",seg[3]))
  37.  
  38. list.append(processIdFeature("depth",seg[4]))
  39.  
  40. list.append(processIdFeature("pos",seg[5]))
  41.  
  42. list.append(processIdFeature("query",seg[6]))
  43.  
  44. list.append(processIdFeature("keyword",seg[7]))
  45.  
  46. list.append(processIdFeature("title",seg[8]))
  47.  
  48. list.append(processIdFeature("desc",seg[9]))
  49. list.append(processIdFeature("user",seg[10]))
  50.  
  51. return list
  52.  
  53. def extracFeature2(seg):
  54.  
  55. depth = float(seg[4])
  56. pos = float(seg[5])
  57. id = int (pos*10/depth)
  58. return processIdFeature("pos_ratio",str(id))
  59.  
  60. def extracFeature3(seg):
  61.  
  62. list=[]
  63. if(len(seg)>16):
  64. str = seg[2] + "_" + seg[15]
  65. list.append(processIdFeature("user_gender",str))
  66. return list
  67.  
  68. def toStr(label, list):
  69. line=label
  70. for i in list:
  71. line = line + "\t" +str(i) + ":1"# 这里的str(i)是指把i变成字符串
  72. return line
  73.  
  74. for line in file:
  75. seg = line.strip().split("\t")
  76. list = extracFeature1(seg)
  77. #list.append(extracFeature2(seg))
  78. #list.extend(extracFeature3(seg))
  79. toWrite.write(toStr(seg[0],list)+"\n")
  80.  
  81. toWrite.close

然后执行命令是:

  1. python feature_map.py train_data train_feature

然后对validate_data也做这个处理:

  1. python feature_map.py validate_data validate_feature

5,特征处理完了之后,进行建模预测

建模代码train.py如下:

  1. #!/usr/bin
  2. # -*- coding:utf-8 -*-
  3. import random
  4. import math
  5.  
  6. alpha = 0.1
  7. iter = 1
  8. l2 = 1 #拉姆达
  9.  
  10. file =open("train_feature","r")
  11.  
  12. max_index = 0
  13. #拿到一个维度坐标最大值.找出这个map到底有多大,特征向量到底有多长
  14. for f in file :
  15. seg = f.strip().split("\t")
  16. for st in seg[1:]: #0不要,0是label
  17. index = int(st.split(":")[0])
  18. if index > max_index :
  19. max_index = index
  20.  
  21. weight = range (max_index+1)
  22. for i in range(max_index+1):
  23. weight[i]=random.uniform(-0.01,0.01) #初始化成-0.1 到 0.1
  24.  
  25. for i in range(iter):
  26. file = open("train_feature","r")
  27. for f in file:
  28. seg = f.strip().split("\t")
  29. label = int (seg[0])
  30. s = 0.0
  31. for st in seg[1:]:
  32. index = int (st.split(":")[0])
  33. #val = float(st.split(":")[1])
  34. s += weight[index] #特征值为1.其实就是一个大特征,出现了的是1,没出现的就是0.
  35. # s+=weight[index]
  36. p = 1.0/(1 + math.exp(-s)) #上面算出了wt * x。这里算的是sigmoid函数,也就是预测值是多少
  37. #梯度 == 预测值 - label。本来还要 * x的,但是因为x 都为1,所以。
  38. g = p - label #这是算出来了梯度是多少。
  39. for st in seg[1:]:
  40. index = int(st.split(":")[0])
  41. weight[index]-=alpha* (g +l2 * weight[index]) # w == w - alpha * (梯度g + 拉姆达l2 * w)
  42.  
  43. #在validate_feature上验证我们的预测效果是怎么样的。
  44. file = open("validate_feature","r")
  45. toWrite = open("pctr","w+") #pctr存的是预测出来的结果 代表的是实际是什么,预测出来是什么。
  46. for f in file :
  47. seg = f.strip().split("\t")
  48. lable = int (seg[0])
  49. s = 0.0
  50. for st in seg[1:]:
  51. index = int(st.split(":")[0])
  52. s+= weight[index]
  53. p = 1.0 /(1 + math.exp(-s))
  54. s = seg[0] + "," + str(p) + "\n"
  55. toWrite.write(s)
  56.  
  57. toWrite.close()

然后进行建模:

  1. python train.py

得到pctr文件:第一列表示validate里面的真实值,第二列表示预测出来的。

6,用auc对测试的结果进行评估:

auc代码如下:

  1. #!/usr/bin/env python
  2.  
  3. import sys
  4. def auc(labels,predicted_ctr):
  5. i_sorted = sorted(range(len(predicted_ctr)),key = lambda i : predicted_ctr[i],reverse = True)
  6. auc_temp = 0.0
  7. tp = 0.0
  8. tp_pre = 0.0
  9. fp = 0.0
  10. fp_pre = 0.0
  11. last_value = predicted_ctr[i_sorted[0]]
  12. for i in range(len(labels)):
  13. if labels[i_sorted[i]] > 0:
  14. tp+=1
  15. else:
  16. fp+=1
  17. if last_value != predicted_ctr[i_sorted[i]]:
  18. auc_temp += ( tp + tp_pre ) * ( fp - fp_pre) / 2.0
  19. tp_pre = tp
  20. fp_pre = fp
  21. last_value = predicted_ctr[i_sorted[i]]
  22. auc_temp += ( tp + tp_pre ) * ( fp -fp_pre ) / 2.0
  23. return auc_temp / (tp * fp)
  24.  
  25. def evaluate(ids,true_values,predict_values):
  26. labels = []
  27. predicted_ctr = []
  28. for i in range(len(ids)):
  29. labels.append(int(true_values[i]))
  30. predicted_ctr.append(float(predict_values[i]))
  31. return auc(labels,predicted_ctr)
  32.  
  33. if __name__ == "__main__":
  34. f = open(sys.argv[1],"r")
  35. ids = []
  36. true_values = []
  37. predict_values = []
  38. for line in f:
  39. seg = line.strip().split(",")
  40. ids.append(seg[0])
  41. true_values.append(seg[1])
  42. predict_values.append(seg[2])
  43. print evaluate(ids,true_values,predict_values)

执行:

  1. cat pctr | awk '{print NR "," $0}' > t
  2. python auc.py t

这样就得到了auc的结果。

连续型特征:

1.广告的相对位置=(depth - position)/depth,深度和位置,某一个广告的点击次数

2.query,keyword,title,description的各自的数量

3.tf-idf与余弦相似度的计算

对query,keyword,title,description计算tf-idf,文档集就是每个样本这四个文本构成的文档集,每个文本相当于一个文档。并且由此计算两两之间的余弦相似度,这样就由四个特征构造出了六个特征。

关键词选几个我的想法是根据当前词的数量的30%,如果小于1则选1,试了好几个百分比,但是30%是最好的。

关于tf-idf与余弦相似度的计算

  (1)使用TF-IDF算法,找出两篇文章的关键词;

  (2)每篇文章各取出若干个关键词(比如20个),合并成一个集合,计算每篇文章对于这个集合中的词的词频(为了避免文章长度的差异,可以使用相对词频);

  (3)生成两篇文章各自的词频向量;

  (4)计算两个向量的余弦相似度,值越大就表示越相似。

利用GBDT构造特征--针对连续特征

30棵树,每棵树深度为6,可以说是调参调出来的最好的结果,这样就新增了30个特征。

GBDT与LR的融合方式,Facebook的paper有个例子如下图2所示,图中Tree1、Tree2为通过GBDT模型学出来的两颗树,x为一条输入样本,遍历两棵树后,x样本分别落到两颗树的叶子节点上,每个叶子节点对应LR一维特征,那么通过遍历树,就得到了该样本对应的所有LR特征。由于树的每条路径,是通过最小化均方差等方法最终分割出来的有区分性路径,根据该路径得到的特征、特征组合都相对有区分性,效果理论上不会亚于人工经验的处理方式。

图2

GBDT模型的特点,非常适合用来挖掘有效的特征、特征组合。业界不仅GBDT+LR融合有实践,GBDT+FM也有实践,2014 Kaggle CTR竞赛冠军就是使用GBDT+FM,可见,使用GBDT融合其它模型是非常值得尝试的思路[11]。

gbdt+lr的实现

笔者调研了Facebook、Kaggle竞赛关于GBDT建树的细节,发现两个关键点:采用ensemble决策树而非单颗树;建树采用GBDT而非RF(Random Forests)。解读如下:

1)为什么建树采用ensemble决策树?

一棵树的表达能力很弱,不足以表达多个有区分性的特征组合,多棵树的表达能力更强一些。GBDT每棵树都在学习前面棵树尚存的不足,迭代多少次就会生成多少颗树。按paper以及Kaggle竞赛中的GBDT+LR融合方式,多棵树正好满足LR每条训练样本可以通过GBDT映射成多个特征的需求。

2)为什么建树采用GBDT而非RF?

RF也是多棵树,但从效果上有实践证明不如GBDT。且GBDT前面的树,特征分裂主要体现对多数样本有区分度的特征;后面的树,主要体现的是经过前N颗树,残差仍然较大的少数样本。优先选用在整体上有区分度的特征,再选用针对少数样本有区分度的特征,思路更加合理,这应该也是用GBDT的原因。

http://www.cbdio.com/BigData/2015-08/27/content_3750170.htm

https://breezedeus.github.io/2014/11/19/breezedeus-feature-mining-gbdt.html#fn:fbgbdt

kaggle冠军的实现

l1正则scikit-learn中只能选择liblinear来优化,内部使用了坐标轴下降

l2正则scikit中可以有四种优化方法,选择的是sag(随机平均梯度下降),比sgd收敛速度要快

KDDCUP CTR预测比赛总结的更多相关文章

  1. Kaggle 自行车租赁预测比赛项目实现

    作者:大树 更新时间:01.20 email:59888745@qq.com 数据处理,机器学习 回主目录:2017 年学习记录和总结 .caret, .dropup > .btn > . ...

  2. 计算广告之CTR预测--PNN模型

    论文为:Product-based Neural Networks for User Response Prediction 1.原理 给大家举例一个直观的场景:比如现在有一个凤凰网站,网站上面有一个 ...

  3. Kaggle 广告转化率预测比赛小结

    20天的时间参加了Kaggle的 Avito Demand Prediction Challenged ,第一次参加,成绩离奖牌一步之遥,感谢各位队友,学到的东西远比成绩要丰硕得多.作为新手,希望每记 ...

  4. Kaggle的Outbrain点击预测比赛分析

    https://yq.aliyun.com/articles/293596 https://www.kaggle.com/c/outbrain-click-prediction https://www ...

  5. 基于Spark和Tensorflow构建DCN模型进行CTR预测

    实验介绍 数据采用Criteo Display Ads.这个数据一共11G,有13个integer features,26个categorical features. Spark 由于数据比较大,且只 ...

  6. CTR预估算法之FM, FFM, DeepFM及实践

    https://blog.csdn.net/john_xyz/article/details/78933253 目录目录CTR预估综述Factorization Machines(FM)算法原理代码实 ...

  7. Google云平台对于2014世界杯半决赛的预测,德国阿根廷胜!

    由于本人是个足球迷,前段日子Google利用自己云平台预测世界杯八进四的比赛并取得了75%的正确率的事情让我振动不小.虽然这些年一直听说大数据的预测和看趋势能力如何如何强大,但这次的感受更加震撼,因为 ...

  8. Kaggle 商品销量预测季军方案出炉,应对时间序列问题有何妙招

    https://www.leiphone.com/news/201803/fPnpTdrkvUHf7uAj.html 雷锋网 AI 研习社消息,Kaggle 上 Corporación Favorit ...

  9. C语言跳水比赛预测结果

    5位运动员参加了10米台跳水比赛,有人让他们预测比赛结果A选手说:B第二,我第三:B选手说:我第二,E第四:C选手说:我第一,D第二:D选手说:C最后,我第三:E选手说:我第四,A第一:比赛结束后,每 ...

随机推荐

  1. js获取url中指定参数的值(含带hash)

    function getUrlVars() { var vars = {}; var parts = window.location.href.replace(/[?&]+([^=&] ...

  2. json 转 T

    T test = JsonConvert.DeserializeObject<T>(json);(json.net)

  3. exif_imagetype() 函数在linux下的php中不存在

    1.问题,项目中上传文件使用插件时,windows上支持函数exif_imagetype(),而在linux上不支持. 2.PHP exif_imagetype的本质 PHP exif_imagety ...

  4. XML Publiser For Excel Template

    1.XML Publisher定义数据 2.XML Publisher定义模板 模板类型选择Microsoft Excel,默认输出类型选择Excel,上传.xls模板 3.定义并发程序 4.定义请求 ...

  5. 编程之美 set 9 字符串移位包含问题

    题目 给定字符串 s1 和 s2, 要求判定 s2能否能够被通过 s1 做循环移位得到的字符包含. s1 = AABCD, s2 = CDAA 返回 true. 给定 s1 = ABCD 和 s2 = ...

  6. 第五篇:CUDA 并行程序中的同步

    前言 在并发,多线程环境下,同步是一个很重要的环节.同步即是指进程/线程之间的执行顺序约定. 本文将介绍如何通过共享内存机制实现块内多线程之间的同步. 至于块之间的同步,需要使用到 global me ...

  7. java基础---->Java中异常的使用(二)

    这一篇博客用例子讲述一下异常的处理过程.那些 我们一直惴惴不安 又充满好奇的未来 会在心里隐隐约约地觉得它们是明亮的. 异常的执行过程 一.实例一:return语句 public class Exce ...

  8. ISP (互联网服务提供商)

    ISP(Internet Service Provider),互联网服务提供商,即向广大用户综合提供互联网接入业务.信息业务.和增值业务的电信运营商. ICP(Internet Content Pro ...

  9. Django学习笔记第五篇--实战练习一--查询数据库并操作cookie

    一.启动项目: django-admin start mysite1 cd mysite1 python manage.py startapp loginapp 根据上文敲命令就可以创建好了一个项目结 ...

  10. QQ空间的文艺打开方法

    QQ空间被限制?打不开? 看看这里 第一种:http://user.qzone.qq.com/627911903 第二种:http://627911903.qzone.qq.com 第三种:http: ...