Kaggle比赛总结

做完 Kaggle 比赛已经快五个月了，今天来总结一下，为秋招做个准备。

题目要求：根据主办方提供的超过 4 天约 2 亿次的点击数据，建立预测模型预测用户是否会在点击移动应用广告后下载应用程序。

数据集特点：

数据量很大，有 2 亿条之多
数据是不平衡的，点击下载的数量远远小于没有点击下载的数量

不平衡数据集的处理思路：

一般对样本进行上采样和下采样，顾名思义就是多的样本少采一点，少的样本多采一点。极端情况下，就是样本太多的时候，就可以做增强学习，就是我给我的少样本增加噪音。但是由于我们这个预测问题，它是一个时间连续序列，没有办法给时间连续序列做一个不同频率的采样，所以我们没有办法进行上采样和下采样，所以，针对这个问题，我们所做的是，在算法原理上，引入一个正则项，来限制它的不平衡率。引入一个系数，这个系数就是它的不平衡率，在这个数据集中约是 99.7%。具体到我们这个模型，它有一个参数叫 isUnbanlanced（是否是不平衡的）,设置为 true 后，它可以自动的检测不平衡率。

接下来，针对这个不平衡数据集，要使用一些比较可靠的评价指标。评价指标用一般的准确率是不行的，举个例子，我们现在有一个分类器，对所有的患者判定是否患病，这么一个傻瓜分类器，人群中可能患者是万分之一的概率，那么，这个分类器的准确率可以到达好几个9，比如 99.9%，但是这个数字是没有意义的，它没有起到分类的作用。所以，我们的评价指标不能够使用准确率，一般使用的叫 AUC，AUC 的全名叫做 Area Under Curve ，被定义为ROC曲线下的面积，显然这个面积的数值不会大于1。ROC 曲线的横轴和纵轴分别是真阳率和伪阳率，真阳率和伪阳率的和为1，然后就会画一条曲线，AUC 就是 ROC 曲线下的面积。AUC 越大，准确率越高。AUC 不受这种不平衡的影响，所以经常会用 AUC 去做指标。

以上是针对不平衡数据集的处理。

下面是正式的流程。

第一步是清洗数据。要给数据打上标签。
第二步是特征工程，第一种办法，比如说 time 类型的一维数值，给它拆成 day hour minute second 这样就变成四维了。还有频率，比如当中有一个设备号，它在所有数据中出现的频率。因为它提供的是设备号，这是一个类别特征，要把这个变成频率，就成了一个连续值特征。对于频率来说，还有一点就是我们引入了一个叫置信系数，比如频率出现了异常值，在 2亿条数据中出现了一次跟两次，其实没有区别，但在频率这个维度上就是一倍和两倍的关系，我们不想要这个差异，需要引入一个置信系数，给分子分母同时加上 Log，这样差距就缩小了。然后给特征之间加上交叉组合，比如说，设备号相同的用户他们的信道号的平均数、方差、绝对值差异，这些数据都很有意义。经过特征工程，我们的特征就从7维扩展到了50维。
建立模型。我们这里用到了 lightGBM。LGB 的原理，两个重点。1. 它是一个树模型，底层是二叉决策树；2. 它是在树模型上做一个 boosting 集成学习。集成学习有很多种，boosting 是其中之一。boosting 原理是产生很多模型，第二个模型拟合的不是真实对象，而是前一个模型与真实模型之间的残差，然后把所有模型加在一起。所以它是一个加法模型，然后不断逼近真实情况。这是 lightGBM 的两个特点。

Q: lightGMB 和GDBT 、XGB 的区别？

A：区别有：

1. 二叉树底层要找最佳收益分类点，但是数据太多了，复杂度很高。XGB 选择了预排序算法，就是说你要找最佳分类点，我就先跟你预排序，后面的复杂度就降下去了。但要维系一个已经排好序的特征，需要空间，而且时间上有所牺牲，但是，LGB不是这么处理的，它就不用传统的那种算法，它用统计学的一种算法，叫直方图算法，这种算法的好处是，不用对所有的数据做运算，而是把数据落在一个个区间上面，然后复杂度就会下降很快。就相当于邻近的数据都给缩成一类了。直方图很多时候都服从正态分布，一般有一个峰值。我们找到那个峰值，就默认它是最佳分类点。虽然在机器学习当中，经常是找到的最佳分类点不是绝对的最佳分类点，但是经过多次计算，也能达到同样的效果，就是牺牲了一定的精度，但速度比你快很多。

2. 因为 boosting 模型是不断逼近，可以做到非常准确，但是它有一个问题，就是容易过拟合。所以，XGB对树的深度做了一个限制，但是LGBM是对叶节点做限制。

3. XGB 不支持类别特征。比如说，你是男，我是女，这是类别。还有一种特征叫连续值特征，比如年龄，1岁，2岁，20岁，这是连续值特征。类别特征的输入，需要引入独热编码（OneHot编码），XGB在类别特征上需要做一个独热编码，但是 LGB 不需要，因为它集成了

4. LGB 对并行的支持做了优化，比较快。

Q: 为什么使用 LGB，有没有试过别的模型，用过 LR 模型吗？

A: LR 和 LightGBM 的应用场景。LR、FM 这种以逻辑斯蒂回归为基础的算法模型，都使用于稀疏矩阵，而以 lightGBM 为代表的树模型，适用于不那么稀疏的，适用于连续值多的。业界往往有这么一种做法，用树模型挑选特征，因为特征比较稀疏，然后把稀疏矩阵送给 LR 做一个分类。因为我们的样本它不是稀疏的，所以直接用 LightGBM 做。

跑模型。的出来的 AUC 是0.98 。

Kaggle比赛总结的更多相关文章

Kaggle比赛：从何着手？
介绍参加Kaggle比赛,我必须有哪些技能呢? 你有没有面对过这样的问题?最少在我大二的时候,我有过.过去我仅仅想象Kaggle比赛的困难度,我就感觉害怕.这种恐惧跟我怕水的感觉相似.怕水,让我无法 ...
Kaggle比赛冠军经验分享：如何用 RNN 预测维基百科网络流量
Kaggle比赛冠军经验分享:如何用 RNN 预测维基百科网络流量 from:https://www.leiphone.com/news/201712/zbX22Ye5wD6CiwCJ.html 导语 ...
kaggle比赛流程（转）
一.比赛概述不同比赛有不同的任务,分类.回归.推荐.排序等.比赛开始后训练集和测试集就会开放下载. 比赛通常持续 2 ~ 3 个月,每个队伍每天可以提交的次数有限,通常为 5 次. 比赛结束前一周是 ...
Kaggle比赛（一）Titanic: Machine Learning from Disaster
泰坦尼克号幸存预测是本小白接触的第一个Kaggle入门比赛,主要参考了以下两篇教程: https://www.cnblogs.com/star-zhao/p/9801196.html https:// ...
Kaggle比赛（二）House Prices: Advanced Regression Techniques
房价预测是我入门Kaggle的第二个比赛,参考学习了他人的一篇优秀教程:https://www.kaggle.com/serigne/stacked-regressions-top-4-on-lead ...
我的第一个 Kaggle 比赛学习 - Titanic
背景 Titanic: Machine Learning from Disaster - Kaggle 2 年前就被推荐照着这个比赛做一下,结果我打开这个页面便蒙了,完全不知道该如何下手. 两年后,再 ...
Kaggle比赛NCFM图像分类任务简介
为了保护和监控海洋环境及生态平衡,大自然保护协会(The Nature Conservancy)邀请Kaggle社区的参赛者们开发能够出机器学习算法,自动分类和识别远洋捕捞船上的摄像头拍摄到的图片中鱼 ...
kaggle比赛之悟
一.模型与特征哪个重要? 参与Sberbank Russian Housing Market比赛,一开始使用sklearn的岭回归函数Ridge(),残差值一直是0.37左右,然后同样的特征又使用了X ...
Kaggle 比赛项目总结（项目流程）
一.EDA(Exploratory Data Analysis) EDA:也就是探索性的分析数据目的: 理解每个特征的意义: 知道哪些特征是有用的,这些特征哪些是直接可以用的,哪些需要经过变换才能用 ...

随机推荐

139.00.009提高Github Clone速度
@(139 - Environment Settings | 环境配置) Method 1 :SS+系统内置代理用 git 内置代理,直接走系统中运行的代理工具中转,比如,你的 SS 本地端口是 1 ...
数组sort()方法排序
sort()方法排序 var arr = ["G","A","C","B","I","H& ...
webstorm出现黑色块光标
取消掉此项对勾即可
mac和windows自动清理内存工具
因为我比较懒,所以需要一款能自动清理电脑内存的工具,目的是设置内存最小值,然后自动清理. mac: drcleaner windows: MaxMem win10设置开机启动地址:C:\Program ...
AWS的load balance
Route53实现了地理上的load balance; ELB实现了region内的load balance CloudFront实现了静态内容的全网加速 ZULh?*;&T(
JS获取屏幕分辨率以及当前对象大小等
<script type="text/javascript"> function getInfo(){ var s = ""; s += " ...
WCF安全 z
WCF custom authentication using ServiceCredentials The generally accepted way of authenticating a us ...
using log4net on my project within a self-hosted WCF application z
Add reference to log4net.dll to our console service host project (our application entry point) Add t ...
Hyper-V迁移---委派
在Hyper-V管理器中-实时迁移,选择“使用kerberos",如图1所示在AD中,找到Hyper-V宿主,分别设置委派,如图2所示图1 图2
MARKS：路由器桥接
仅供参考…… 测试使用环境:Tplink & Tenda渣渣路由器.其他环境或不同. 设置注意事项:副路由器网段设置和主路由一致.主路由不需要开启WDS.副路由器开启WDS(连接ok,状态即显 ...

Kaggle比赛总结

Kaggle比赛总结的更多相关文章

随机推荐

热门专题