先看数据: 特征如下: Time Number of seconds elapsed between each transaction (over two days) numeric V1 No description provided numeric V2 No description provided numeric V3 No description provided numeric V4 No description provided numeric V5 No description…
from:https://zhuanlan.zhihu.com/p/30461746 本项目需解决的问题 本项目通过利用信用卡的历史交易数据,进行机器学习,构建信用卡反欺诈预测模型,提前发现客户信用卡被盗刷的事件. 建模思路 项目背景 数据集包含由欧洲持卡人于2013年9月使用信用卡进行交的数据.此数据集显示两天内发生的交易,其中284,807笔交易中有492笔被盗刷.数据集非常不平衡,积极的类(被盗刷)占所有交易的0.172%. 它只包含作为PCA转换结果的数字输入变量.不幸的是,由于保密问题…
总结:不平衡数据的分类,(1)数据层面:使用过采样是主流,过采样通常使用smote,或者少数使用数据复制.过采样后模型选择RF.xgboost.神经网络能够取得非常不错的效果.(2)模型层面:使用模型集成,样本不做处理,将各个模型进行特征选择.参数调优后进行集成,通常也能够取得不错的结果.(3)其他方法:偶尔可以使用异常检测技术,主要有IsolationForest,OneClassSVM,LocalOutlierFactor,KMeans,其中IsolationForest效果最好.但是不及前…
作者:大树 更新时间:01.20 email:59888745@qq.com 数据处理,机器学习 回主目录:2017 年学习记录和总结 .caret, .dropup > .btn > .caret { border-top-color: #000 !important; } .label { border: 1px solid #000; } .table { border-collapse: collapse !important; } .table td, .table th { bac…
Kaggle网站流量预测任务第一名解决方案:从模型到代码详解时序预测 2017年12月13日 17:39:11 机器之心V 阅读数:5931   近日,Artur Suilin 等人发布了 Kaggle 网站流量时序预测竞赛第一名的详细解决方案.他们不仅公开了所有的实现代码,同时还详细解释了实现的模型与经验.机器之心简要介绍了他们所实现的模型与经验,更详细的代码请查看 GitHub 项目. GitHub 项目地址:https://github.com/Arturus/kaggle-web-tra…
一. 前言 记得上一篇Spring Cloud的文章关于如何使JWT失效进行了理论结合代码实践的说明,想当然的以为那篇会是基于Spring Cloud统一认证架构系列的最终篇.但关于JWT另外还有一个热议的话题是JWT续期?. 本篇就个人觉得比较好的JWT续期方案以及落地和大家分享一下,算是抛转引玉,大家有好的方案欢迎留言哈. 后端 Spring Cloud实战 | 第一篇:Windows搭建Nacos服务 Spring Cloud实战 | 第二篇:Spring Cloud整合Nacos实现注册…
@ 目录 1 概述 2 处理思想学习 2.1 移除异常值 2.2 缺失值 2.3 目标函数 2.4 特征工程 2.4.1 Savitzky-Golay filter 2.4.2 Bayesian target encoding(python实现) 2.5 models ensemble 2.5.1 pearson correlation(+python 实现) 2.6 Why does postprocessing work? 2nd place magic 1 概述 先上第一名分析的图 2 处…
https://www.leiphone.com/news/201803/fPnpTdrkvUHf7uAj.html 雷锋网 AI 研习社消息,Kaggle 上 Corporación Favorita 主办的商品销量预测比赛于两个月前落下帷幕,此次比赛的奖金池共计三万美元,吸引到 1675 支队伍参赛. 近日,Private Leaderboard 上的亚军 SoLucky 团队在 arxiv 上发表了一篇论文,阐述了其获胜方案,雷锋网 AI 研习社对论文内容进行编译整理如下: 作者参加了在…
完整代码见kaggle kernel 或 Github 比赛页面:https://www.kaggle.com/c/house-prices-advanced-regression-techniques 这个比赛总的情况就是给你79个特征然后根据这些预测房价 (SalePrice),这其中既有离散型也有连续性特征,而且存在大量的缺失值.不过好在比赛方提供了data_description.txt这个文件,里面对各个特征的含义进行了描述,理解了其中内容后对于大部分缺失值就都能顺利插补了. 参加比赛…
https://mp.weixin.qq.com/s/JwRXBNmXBaQM2GK6BDRqMw 选自GitHub 作者:Artur Suilin 机器之心编译 参与:蒋思源.路雪.黄小天 近日,Artur Suilin 等人发布了 Kaggle 网站流量时序预测竞赛第一名的详细解决方案.他们不仅公开了所有的实现代码,同时还详细解释了实现的模型与经验.机器之心简要介绍了他们所实现的模型与经验,更详细的代码请查看 GitHub 项目. GitHub 项目地址:https://github.com…