2月20日:

  查看任务介绍,二分类问题,评价标准logloss

  下载数据

2月21~27日:

  查看数据组成,标识分类变量、离散变量、连续变量。

  发现连续数据有大量非随机空缺(占总量一半),主要集中在v2相关与v8相关列

  根据空缺相关性,可将feature分为6组:

  g1-v8相关列,g2-v2相关列,g3-与v2v8均不相关的稀疏列,g4-无缺值连续变量,gd-离散变量,gc-分类变量

  标签样本不均衡,约75%的y==1,25%的y==0

  查看相关性。

2月28日~3月3日:

  考虑对缺值数据(feature稀疏样本)进行模型,因feature较少,实现将较快。

  对分类变量one-hot赋值。

  尝试logistic、linearSVC(no dual)拟合效果较差,大量标签为预测为1类,几乎不出现0类预测

  尝试kernelSVC,样本数太大,核矩阵过慢

  尝试较浅层Random Forest,同样无法有效辨识类0

  尝试xgb,极简易调参后,对feature稀疏样本4-folds cv约0.450,在lb上表现估计约0.457上下

(现在看来有过拟合的嫌疑,因为对v56等多值分类变量进行了过细的处理)

进一步探索:

1、大规模多模型调参

2、对分类变量的one-hot进行处理,如使用logistic regression、navie bayes等,聚合成一个新的feature

3、对模型进行average或者logistic regression处理

4、对某些明显有相关性的categorical-one-hot进行单列处理,消除ordinal假设

5、尝试k-means,和KNN(需考虑如何消除量纲影响)

对稀疏特征的样本,尝试以下的做法

1、连续变量+离散变量+序列化分类变量

2、连续变量+离散变量+序列化分类变量+特殊单列序列化one_hot

3、连续变量+离散变量+序列化分类变量+全体单列序列化one_hot后logistic系数

4、连续变量+离散变量+伯努利序列化分类变量+特殊单列序列化one_hot+全体单列序列化one_hot后logistic系数

3月29日

伯努利化+特殊单列one_hot有一定作用,logistic系数似乎反而没起到什么影响(在gbdt中),可能参数调得不好

调参结束,et和xgc模型基本在5 folds的前提下能达到0.459xx的cv

上交LB后得分0.458xx

然而对6个模型简单平均后,其得分仅有0.456xx,未达到预期目的

看讨论区排行前列的人说,创造了上千个特征进行训练,并且使用一些"secret tweaks"使得训练时间为30min,10folds

(laptop配置8核,16g内存,40g交换内存)这个时间太令人震惊!看结束后对方是否会有一个完整的方法分享

下一步考虑的事情:要在自己的模型上完善,一个是对稀疏的部分再进行细致稳定的调参, 把稀疏的模型结果代入到whole data的模型中

另外,考虑logistic feature是否真的不管用,要不要也试一下linear feature或者linear SVC feature呢?

还有,对方创造的上千个特征,很可能就是在稀疏样本仅有的那几个特征中得出的,看看到时候能不能大规模搞些特征出来。

BNP Paribas Cardif Claims Management的更多相关文章

  1. Java 7 中 NIO.2 的使用——文件递归操作

    众所周知,递归编程是一项有争议的技术,因为它需要大量的内存,但是它能简化一些编程任务.基本上,一个递归操作都是程序调用自己传递参数修改的值或者参数传递到当前的程序循环中.递归编程通常用来计算阶乘斐波那 ...

  2. 7 Exciting Uses of Machine Learning in FinTech

    https://rubygarage.org/blog/machine-learning-in-fintech Machine learning (ML) has moved from the per ...

  3. Creating Custom Connector Sending Claims with SharePoint 2013

    from:http://blogs.msdn.com/b/security_trimming_in_sharepoint_2013/archive/2012/10/29/creating-custom ...

  4. MySQL vs. MongoDB: Choosing a Data Management Solution

    原文地址:http://www.javacodegeeks.com/2015/07/mysql-vs-mongodb.html 1. Introduction It would be fair to ...

  5. Java Memory Management(1)

    Java Memory Management, with its built-in garbage collection, is one of the language’s finest achiev ...

  6. SharePoint Adventures : Using Claims with Reporting Services

    Cannot convert claims identity to a windows token.  This may be due to user not logging in using win ...

  7. Low overhead memory space management

    Methods, apparatus, and systems, including computer programs encoded on a computer storage medium, m ...

  8. Operating system management of address-translation-related data structures and hardware lookasides

    An approach is provided in a hypervised computer system where a page table request is at an operatin ...

  9. Lock-less buffer management scheme for telecommunication network applications

    A buffer management mechanism in a multi-core processor for use on a modem in a telecommunications n ...

随机推荐

  1. 关于使用gitlab协同开发提交代码步骤

    记录使用gitlab协同开发时从自己的分支向master分支提交代码的步骤: 环境:安装了git和TortoiseGit(git的可视化工具) 1.首先切换到自己的分支(如果不在自己的分支) 2.gi ...

  2. Linux搭建nginx+php/php-fpm+mysql环境

    百度内部php框架odp有单独的nginx+php/php-fpm环境,但为了更好的实践,自己搭建一套单独的. 1.首先安装nginx 两种方式: 1)yum源安装(使用root权限)yum inst ...

  3. 这些科学家用DNA做的鲜为人知事,你估计都没见过!

    DNA世界的每一步都给人类带来奇妙甚至吃惊的发现.研究人员越来越多地探索和掌握了生命中的分子.生物与技术之间的界限以前所未有的方式模糊,有时甚至更糟.但DNA也为复杂疾病带来简单的答案,存储奇怪的文件 ...

  4. Mysql SQL Mode简介

    MySQL服务器能够工作在不同的SQL模式下,并能针对不同的客户端以不同的方式应用这些模式.这样,应用程序就能对服务器操作进行量身定制以满足自己的需求.这类模式定义了MySQL应支持的SQL语法,以及 ...

  5. 关于Linux文件系统

    前言 文件系统是在内核中实现,能够对存储在磁盘上的二进制数据进行有效的层次化管理的一种软件.而用户程序为了实现在磁盘上使用或者创建文件,向内核发起系统调用(实际由文件系统向内核发起的系统调用)并转换为 ...

  6. Vizceral小白入门

    Vizceral小白入门 接到一个任务,要求将N个program可视化,能一目了然查看当前爬虫状态.记得之前做测试时,一个queue service前端可视化效果不错,经询问是用vizceral开源框 ...

  7. 下一代网际协议IPv6

    下一代网际协议IPv6 一.解决 IP 地址耗尽的措施 从计算机本身发展以及从因特网规模和网络传输速率来看,现在 IPv4 已很不适用. 最主要的问题就是 32 位的 IP 地址不够用. 在 2019 ...

  8. java ThreadPoolExecutor初探

    导读:线程池是开发中使用频率比较高的组件之一,但是又有多少人真正了解其内部机制呢. 关键词:线程池 前言 线程池是大家开发过程中使用频率比较高的组件之一,但是其内部原理又有多少人真正清楚呢.最近抽时间 ...

  9. APScheduler使用总结

    安装 pip install apscheduler APScheduler组件 1.triggers(触发器) 触发器中包含调度逻辑,每个作业都由自己的触发器来决定下次运行时间.除了他们自己初始配置 ...

  10. 树莓派3B安装OpenWrt打造超级路由器

    网上有很多树莓派安装OpenWrt的教程,我这里写一下个人安装体验以及踩过的坑