kaggle kernel使用指南】的更多相关文章

有几个要注意的地方: 1.可以选择CPU或GPU,但是机器学习模型一般的CPU就够了,最近(2019.04)使用GPU的话一小时后总是会断开连接,这时候要跑久一点的cell就凉了. 2.导入文件:支持自行导入,如果是kaggle上的数据也可以直接从官方比赛数据中选择,导入到右侧的workspace中后,在代码中要导入csv文件,其路径就是点击workspace中相应文件,复制路径即可 3.下载代码运行后输出的文件:首先确保代码中有df.to_csv()这一行,然后commit,点击commit后…
在kaggle上创建kernel,加入如下代码. 连续运行两次,可以看到保存的文件名字不一样,且无论运行错少次,都只有一个输出文件. 这说明,kaggle上的kernel每次commit运行,都会清空输出文件. # This Python 3 environment comes with many helpful analytics libraries installed # It is defined by the kaggle/python docker image: https://git…
完整代码见kaggle kernel 或 NbViewer 比赛页面:https://www.kaggle.com/c/titanic Titanic大概是kaggle上最受欢迎的项目了,有7000多支队伍参加,多年来诞生了无数关于该比赛的经验分享.正是由于前人们的无私奉献,我才能无痛完成本篇. 事实上kaggle上的很多kernel都聚焦于某个特定的层面(比如提取某个不为人知的特征.使用超复杂的算法.专做EDA画图之类的),当然因为这些作者本身大都是大神级别的,所以平日里喜欢钻研一些奇淫巧技.…
完整代码见kaggle kernel 或 Github 比赛页面:https://www.kaggle.com/c/house-prices-advanced-regression-techniques 这个比赛总的情况就是给你79个特征然后根据这些预测房价 (SalePrice),这其中既有离散型也有连续性特征,而且存在大量的缺失值.不过好在比赛方提供了data_description.txt这个文件,里面对各个特征的含义进行了描述,理解了其中内容后对于大部分缺失值就都能顺利插补了. 参加比赛…
使用google翻译自:https://software.seek.intel.com/dealing-with-outliers 数据分析中的一项具有挑战性但非常重要的任务是处理异常值.我们通常将异常值定义为与其余数据群1不一致的样本或事件.异常值通常包含有关影响数据生成过程2的系统和实体的异常特征的有用信息. 异常检测算法的常见应用包括: 入侵检测系统信用卡诈骗有趣的传感器事件医学诊断在本文中,我们将重点介绍异常检测 - 信用卡欺诈的最常见应用之一.通过一些简单的离群值检测方法,可以在真实世…
目录 机器学习英雄访谈录之 Kaggle Kernels 专家:Aakash Nain 正文 对我的启发 机器学习英雄访谈录之 Kaggle Kernels 专家:Aakash Nain Sanyam Bhutani 是 Medium 上一位专注 ML 和 CV 的博主,本系列翻译自他进行的系列采访--<机器学习英雄访谈录>. 学习从模仿开始,要模仿就要模仿那些最棒的人,这是我开始本系列的初衷. 正文 这次我采访的是 Aakash Kumar Nain,一位 Kaggle kernel 专家.…
pandas内存优化分享 缘由 最近在做Kaggle上的wiki文章流量预测项目,这里由于个人电脑配置问题,我一直都是用的Kaggle的kernel,但是我们知道kernel的内存限制是16G,如下: 在处理数据过程中发现会超出,虽然我们都知道对于大数据的处理有诸如spark等分布式处理框架,但是依然存在下面的问题: 对于个人来说,没有足够的资源让这些框架发挥其优势: 从处理数据的库丰富程度上,还是pandas等更具有优势: 很多时候并不是pandas无法处理,只是数据未经优化: 所以这里还是考…
首先要给那些不熟悉 Pandas 的人简单介绍一下,Pandas 是 Python 生态系统中最流行的数据分析库.它能够完成许多任务,包括: 读/写不同格式的数据 选择数据的子集 跨行/列计算 寻找并填写缺失的数据 在数据的独立组中应用操作 重塑数据成不同格式 合并多个数据集 先进的时序功能 通过 matplotlib 和 seaborn 进行可视化操作 尽管 Pandas 功能强大,但它并不为整个数据科学流程提供完整功能.Pandas 通常是被用在数据采集和存储以及数据建模和预测中间的工具,作…
一个标准的数据分析码农必须要配一台超薄笔记本和一台高性能服务器,笔记本是日常使用,各种小问题的解决,同时也是用于远程连接终端服务器:高性能服务器就是核心的处理数据的平台,CPU.内存.硬盘容量.GPU等都必须要能满足数据分析和建模的要求. 笔记本强烈建议是Mac家的,无论是流畅度.美学.做工都绝对秒杀其他平台,唯一的缺点就是贵:服务器没有选择,只能用Linux了,ubuntu也是强烈推荐.目前除了打游戏,好像实在是找不到需要用Windows的理由了,奈何马上要奔3了,游戏最多也就是偶尔消遣一下,…
完整代码见kaggle kernel 或 Github 比赛页面:https://www.kaggle.com/c/house-prices-advanced-regression-techniques 这个比赛总的情况就是给你79个特征然后根据这些预测房价 (SalePrice),这其中既有离散型也有连续性特征,而且存在大量的缺失值.不过好在比赛方提供了data_description.txt这个文件,里面对各个特征的含义进行了描述,理解了其中内容后对于大部分缺失值就都能顺利插补了. 参加比赛…