kaggle笔记】的更多相关文章

roc曲线介绍:https://www.cnblogs.com/dlml/p/4403482.html one-hot encode: 1) Drop Categorical Variables 2) Label Encoding 3) One-Hot Encoding One-hot encoding generally does not perform well if the categorical variable takes on a large number of values (i.…
预处理 1. 删除缺失值 a. 删除行即样本(对于样本如果输出变量存在缺失的则直接删除该行,因为无法用该样本训练) b. 删除列,即特征(采用这种删除方式,应保证训练集和验证集都应当删除相同的特征) cols_with_missing = [col for col in original_data.columns if original_data[col].isnull().any()] redued_original_data = original_data.drop(cols_with_mi…
[读书笔记与思考]<python数据分析与挖掘实战>-张良均 最近看一些机器学习相关书籍,主要是为了拓宽视野.在阅读这本书前最吸引我的地方是实战篇,我通读全书后给我印象最深的还是实战篇.基础篇我也看了,但发现有不少理论还是讲得不够透彻,个人还是比较倾向于 <Machine Learning>--Tom M.Mitchell,Andrew 的 machine learning 课程,或周华志的<机器学习>,Jiawei Han 的 <data mining>.…
本杂记摘录自文章<开发 | 为什么说集成学习模型是金融风控新的杀手锏?> 基本内容与分类见上述思维导图. . . 一.机器学习元算法 随机森林:决策树+bagging=随机森林 梯度提升树:决策树Boosting=GBDT . 1.随机森林 博客: R语言︱决策树族--随机森林算法 随机森林的原理是基于原始样本随机抽样获取子集,在此之上训练基于决策树的基学习器,然后对基学习器的结果求平均值,最终得到预测值. 随机抽样的方法常用的有放回抽样的booststrap,也有不放回的抽样.RF的基学习器…
入门kaggle,开始机器学习应用之旅. 参看一些入门的博客,感觉pandas,sklearn需要熟练掌握,同时也学到了一些很有用的tricks,包括数据分析和机器学习的知识点.下面记录一些有趣的数据分析方法和一个自己撸的小程序. 1.Tricks 1) df.info():数据的特征属性,包括数据缺失情况和数据类型. df.describe(): 数据中各个特征的数目,缺失值为NaN,以及数值型数据的一些分布情况,而类目型数据看不到. 缺失数据处理:缺失的样本占总数比例极高,则直接舍弃:缺失样…
最近博主在做个 kaggle 竞赛,有个 Kernel 的数据探索分析非常值得借鉴,博主也学习了一波操作,搬运过来借鉴,原链接如下: https://www.kaggle.com/willkoehrsen/start-here-a-gentle-introduction 1 数据介绍 数据由Home Credit提供,该服务致力于向无银行账户的人群提供信贷(贷款).预测客户是否偿还贷款或遇到困难是一项重要的业务需求,Home Credit将在Kaggle上举办此类竞赛,以了解机器学习社区可以开展…
https://mlnote.wordpress.com/2015/12/16/python%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E5%AE%9E%E8%B7%B5%E4%B8%8Ekaggle%E5%AE%9E%E6%88%98-machine-learning-for-kaggle-competition-in-python/ Author: Miao Fan (范淼), Ph.D. candidate on Computer Science. Affil…
转载请注明出处:http://www.cnblogs.com/willnote/p/6801496.html 前言 本文为学习boosting时整理的笔记,全文主要包括以下几个部分: 对集成学习进行了简要的说明 给出了一个Adboost的具体实例 对Adboost的原理与学习过程进行了推导 针对GBDT的学习过程进行了简要介绍 针对Xgboost的损失函数进行了简要介绍 给出了Adboost实例在代码上的简单实现 文中的内容是我在学习boosting时整理的资料与理解,如果有错误的地方请及时指出…
前言 首先声明,以下内容绝大部分转自知乎智能单元,他们将官方学习笔记进行了很专业的翻译,在此我会直接copy他们翻译的笔记,有些地方会用红字写自己的笔记,本文只是作为自己的学习笔记.本文内容官网链接:image classification notes 这是一篇介绍性教程,面向非计算机视觉领域的同学.教程将向同学们介绍图像分类问题和数据驱动方法. 内容列表: 图像分类.数据驱动方法和流程 Nearest Neighbor分类器 k-Nearest Neighbor 验证集.交叉验证集和超参数调参…
译者注:本文智能单元首发,译自斯坦福CS231n课程笔记image classification notes,由课程教师Andrej Karpathy授权进行翻译.本篇教程由杜客翻译完成.ShiqingFan对译文进行了仔细校对,提出了大量修改建议,态度严谨,帮助甚多.巩子嘉对几处术语使用和翻译优化也提出了很好的建议.张欣等亦有帮助. 原文如下 这是一篇介绍性教程,面向非计算机视觉领域的同学.教程将向同学们介绍图像分类问题和数据驱动方法.下面是内容列表: 图像分类.数据驱动方法和流程 Neare…