Kaggle初学者五步入门指南,七大诀窍助你享受竞赛
Kaggle 是一个流行的数据科学竞赛平台,已被谷歌收购,参阅《业界 | 谷歌云官方正式宣布收购数据科学社区 Kaggle》。作为一个竞赛平台,Kaggle 对于初学者来说可能有些难度。毕竟其中的一些竞赛有高达 100 万美元的奖金池和数百位参赛者。顶级的团队在处理机场安全提升或卫星数据分析等任务上拥有数十年积累的经验。为了帮助初学者入门 Kaggle,EliteDataScience 近日发表了一篇入门介绍文章,解答了一些初学者最常遇到的问题。机器之心对这篇文章进行了编译介绍,另外也增加了一些机器之心之前发过的文章作为补充资源。
一些初学者会犹豫要不要参加 Kaggle 竞赛,这并不让人奇怪,他们通常有以下顾虑:
- 我该如何开始?
- 我要和经验丰富的博士研究者比赛吗?
- 如果没有获胜的机会,还值得参与吗?
- 这就是数据科学吗?(如果我在 Kaggle 上表现不好,我在数据科学领域还有希望吗?)
- 未来我该如何提升我的排名?
如果你有其中任何问题,你就看对了文章。在这篇指南中,我们会解读上手 Kaggle、提升技能和享受 Kaggle 所需要了解的一切。
Kaggle vs.「经典的」数据科学
首先,我们要清楚了解:
Kaggle 竞赛和「经典的」数据科学有一些重要的不同之处,但只要你以正确的心态接触它,就也能收获有价值的经验。
让我们解释一下:
Kaggle 竞赛
本质上,带有奖金池的竞赛必须满足一些标准:
- 问题必须困难:竞赛不应该是一个下午就能解决的任务。为了得到最好的投资回报,主办公司会提交他们最大最难的问题。
- 解决方案必须新:要赢得最新的竞赛,你通常需要进行扩展研究、定制算法、训练先进的模型等等。
- 表现必须能比较:竞赛必须要决出优胜者,所以你和其他对手的解决方案必须要被评分。
「经典的」数据科学
相对而言,日常所用的数据科学并不需要满足这些标准。
- 问题可能简单。实际上,数据科学家应该尽力确认易于实现的成果:可以快速解决的富有成效的项目。
- 解决方案可以是成熟的。大多数常见任务(比如探索分析、数据清理、A/B 测试、经典算法)都已经有了已得到证明的框架。没必要重新发明轮子。
- 表现可以是绝对的。即使一个解决方案只是简单地超越了之前的基准,那也非常有价值。
Kaggle 竞赛鼓励你竭尽所能,而经典数据科学则推崇效率和最大化的业务效果。
Kaggle 竞赛值得参加吗?
尽管 Kaggle 和经典数据科学之间存在差异,但 Kaggle 仍然是一种很好的入门工具。
每个竞赛都是独立的。无需设置项目范围然后收集数据,这让你有时间专注其它技能。
练习就是实践。学习数据科学的最好方法是在做中学。只要没有每场竞赛都获胜的压力,你就可以练习各种有趣的问题。
讨论和获胜者采访很有启发性。每个竞赛都有自己的讨论板块与获胜者简报。你可以窥见更有经验的数据科学家的思考过程。
Kaggle 获胜者采访
怎样入门 Kaggle?
接下来,我们将给出一个按步进行的行动规划,然后慢慢上升到 Kaggle 竞赛中。
第一步:选择一种编程语言
首先,我们推荐你选择一种编程语言,并坚持使用。Python 和 R 在 Kaggle 和更广泛的数据科学社区上都很流行。
如果你是一个毫无经验的新手,我们推荐 Python,因为这是一种通用编程语言,你可以在整个流程中都使用它。
参考:
- 数据科学领域 R vs Python:http://elitedatascience.com/r-vs-python-for-data-science
- 如何为数据科学学习 Python:http://elitedatascience.com/learn-python-for-data-science
- 深度 | R vs Python:R 是现在最好的数据科学语言吗?
- 业界 | 超越 R,Python 成为最受欢迎的机器学习语言
第二步:学习探索数据的基础
加载、浏览和绘制你的数据(即探索性分析)的能力是数据科学的第一步,因为它可以为你将在模型训练过程中做的各种决策提供信息。
如果你选择了 Python 路线,那么我们推荐你使用专门为这个目的设计的 Seaborn 库。其中有高层面的绘图函数,可以绘制许多最常见和有用的图表。
参考:
- Seaborn 库:https://seaborn.pydata.org/
- Python Seaborn 教程:http://elitedatascience.com/python-seaborn-tutorial
- 资源 | 2017 年最流行的 15 个数据科学 Python 库
第三步:训练你的第一个机器学习模型
在进入 Kaggle 之前,我们推荐你先在更简单更容易管理的数据集上训练一个模型。这能让你熟悉机器学习库,为以后的工作做铺垫。
关键在于培养良好的习惯,比如将你的数据集分成独立的训练集和测试集,交叉验证避免过拟合以及使用合适的表现评价指标。
对于 Python,最好的通用机器学习库是 Scikit-Learn。
参考:
- Scikit-Learn 库:http://scikit-learn.org/stable/
- Python Scikit-Learn 教程:http://elitedatascience.com/python-machine-learning-tutorial-scikit-learn
- 7 天应用机器学习速成课:http://elitedatascience.com/
- 只需十四步:从零开始掌握 Python 机器学习(附资源)
- 教程 | Kaggle CTO Ben Hamner :机器学习的八个步骤
第四步:解决入门级竞赛
现在我们已经准备好尝试 Kaggle 竞赛了,这些竞赛分成几个类别。最常见的类别是:
- Featured:这些通常是由公司、组织甚至政府赞助的,奖金池最大。
- Research:这些是研究方向的竞赛,只有很少或没有奖金。它们也有非传统的提交流程。
- Recruitment:这些是由想要招聘数据科学家的公司赞助的。目前仍然相对少见。
- Getting Started:这些竞赛的结构和 Featured 竞赛类似,但没有奖金。它们有更简单的数据集、大量教程和滚动的提交窗口让你可以随时输入。
Getting Started 竞赛非常适合初学者,因为它们给你提供了低风险的学习环境,并且还有很多社区创造的教程:https://www.kaggle.com/c/titanic#tutorials
第五步:比赛是为了更好地学习,而不是赚钱
有了上面的基础,就可以参与到 Featured 竞赛中了。一般来说,为了取得好排名,通常需要远远更多的时间和精力。
因此,我们建议你明智地选择参与项目。参加竞赛能帮你深入到你希望长期参与的技术领域中。
尽管奖金很诱人,但更有价值(也更可靠)的回报是为你的未来事业所获得的技能。
享受 Kaggle 的小诀窍
最后,我们将介绍几个参与 Kaggle 的最受欢迎的诀窍,希望能帮你享受你的 Kaggle 时光。
诀窍 1:设置循序渐进的目标
如果你曾经玩过什么让人上瘾的游戏,你就知道循序渐进的目标的重要性。那就是好游戏让人着迷的诀窍。每一个目标都要足够大,以便带来成就感;但也不能太大,不然无法实现。
大多数 Kaggle 参与者都没赢过任何一场竞赛,这完全正常。如果把获胜作为第一个里程碑,你可能会失望,尝试几次之后可能就会失去动力。循序渐进的目标会让你的旅程更加愉快。比如:
提交一个超越基准解决方案的方案
- 在一场竞赛中进入排名前 50%
- 在一场竞赛中进入排名前 25%
- 在三场竞赛中进入排名前 25%
- 在一场竞赛中进入排名前 10%
- 赢得一场竞赛!
这种策略让你可以一路衡量你的进展和进步。
诀窍 2:查阅得票最多的 kernel
Kaggle 有一个非常厉害的功能:参与者可以提交 kernel,即用于探索一个概念、展示一种技术或分享一种解决方案的短脚本。
当你开始一场竞赛或感觉进步停滞时,查阅受欢迎的 kernel 或许能给你带来灵感。
诀窍 3:在论坛中提问
不要害怕问「愚蠢的」问题。
提问能遇到的最糟糕的事情是什么?也许你会被忽视……仅此而已。
另一方面,你能得到很多回报,包括来自经验更丰富的数据科学家的建议和指导。
诀窍 4:独立发展核心技能
开始的时候,我们建议你独自工作。这将迫使你解决应用性机器学习流程中的每一步,包括探索性分析、数据清理、特征工程和模型训练。
如果过早地和人组队,你就可能会错失发展这些基本技能的机会。
诀窍 5:组队以拓展你的极限
虽然太早组队不好,但在未来的比赛中组队让你能向其他人学习,进而拓展你的极限。过去的许多获胜者都是团队,这让他们可以结合彼此的知识共同施展力量。
此外,一旦你掌握了机器学习的技术技能,你就可以与其他可能比你有更多领域知识的人合作,进一步扩展你的机遇。
诀窍 6:记住 Kaggle 可以成为你的垫脚石
记住,你不一定要成为一个长期的 Kaggle 人。如果发现你不喜欢这种形式,也没什么大不了的。
实际上,许多人在做自己的项目或成为全职数据科学家之前都会使用 Kaggle 作为自己的垫脚石。
所以你的关注重点应该是尽可能地学习。长远来看,参与能给你带来相关经验的竞赛比参加有最高奖金的竞赛更好。
诀窍 7:不要担心排名低
有些初学者担心低排名出现在他们的个人资料中,结果一直没有开始。当然,比赛焦虑是很正常的现象,并不只限于 Kaggle。
但是,排名低真的没什么关系。没人会因此贬低你,因为他们曾经某个时候也是初学者。
即便如此,如果仍然担心个人资料里的低排名,你可以再单独创建一个练习账号。一旦觉得自己能力不错了,就可以开始用你的「主帐号」来建立丰功伟绩了。(再说一下,这么做毫无必要!)
结论
在这篇指南中,我们分享了上手 Kaggle 的 5 大步骤:
- 选择一种编程语言
- 学习探索数据的基础
- 训练第一个机器学习模型
- 解决入门级竞赛
- 比赛是为了更好地学习,而不是赚钱
最后,我们分享了享受这个平台的 7 个诀窍:
- 设置循序渐进的目标
- 查阅得票最多的 kernel
- 在论坛中提问
- 独立发展核心技能
- 组队以拓展你的极限
- 记住 Kaggle 可以成为你的垫脚石
- 不要担心排名低
原文链接:https://elitedatascience.com/beginner-kaggle
Kaggle初学者五步入门指南,七大诀窍助你享受竞赛的更多相关文章
- 软件工程 Coding.net代码托管平台 Git初学者的使用总结 五步完成 程序,文件,文件夹的Git
一.前言 第一次用git相关的命令行,我使用的是Coding.net代码托管平台.Coding.net 自主打造的基于 Git 的代码托管平台,提供高性能的远端仓库,还有保护分支,历史版本分屏对比. ...
- C语言程序设计入门学习五步曲(转发)
笔者在从事教学的过程中,听到同学抱怨最多的一句话是:老师,上课我也能听懂,书上的例题也能看明白,可是到自己动手做编程时,却不知道如何下手.发生这种现象的原因有三个: 一.所谓的看懂听明白,只是很肤浅的 ...
- redis入门指南(五)—— 复制与哨兵
写在前面 学习<redis入门指南>笔记,结合实践,只记录重要,明确,属于新知的相关内容. 一.复制 1.在复制中,数据库分为两类,一类主数据库,一类从数据库,主库用来读写,从库用来读,主 ...
- Asp.Net MVC4.0 官方教程 入门指南之五--控制器访问模型数据
Asp.Net MVC4.0 官方教程 入门指南之五--控制器访问模型数据 在这一节中,你将新创建一个新的 MoviesController类,并编写代码,实现获取影片数据和使用视图模板在浏览器中展现 ...
- Firebug入门指南
据说,对于网页开发人员来说,Firebug是Firefox浏览器中最好的插件之一. 我最近就在学习怎么使用Firebug,网上找到一篇针对初学者的教程,感觉比较有用,就翻译了出来. ========= ...
- Office 365 机器人(Bot)开发入门指南 (新篇)
最近在整理书稿时,发现我在2017年7月份写的这篇 Office 365 机器人(Bot)开发入门 的内容,因为相关平台的升级,已经完全不能体现当前的开发过程,所以我再专门写一篇新的开发入门指南给有兴 ...
- OpenCV入门指南----人脸检测
本篇介绍图像处理与模式识别中最热门的一个领域——人脸检测(人脸识别).人脸检测可以说是学术界的宠儿,在不少EI,SCI高级别论文都能看到它的身影.甚至很多高校学生的毕业设计都会涉及到人脸检测.当然人脸 ...
- Firebug入门指南(转)
本文转自:http://www.ruanyifeng.com/blog/2008/06/firebug_tutorial.html 作者: 阮一峰 日期: 2008年6月 8日 据说,对于网页开发人员 ...
- IPv6系列-入门指南
本文是<IPv6系列>文章的第一篇<入门指南>,用于快速了解并上手IPv6. 小慢哥的原创文章,欢迎转载 目录 ▪ 一. 为什么要了解IPv6 ▪ 二. 顾虑:IPv6地址太复 ...
随机推荐
- Mysql数据按天分区,定期删除
需求: 1.日志表需要按天分区 2.只保留一个月数据 方案: 1.创建两个事件,一个事件生成未来需要的分区,另一个事件定期检查过期数据(移除分区) 2.创建事件每小时执行一次,删除事件每天执行一次 3 ...
- 此请求已被阻止,因为当用在 GET 请求中时,会将敏感信息透漏给第三方网站。若要允许 GET 请求,请将 JsonRequestBehavior 设置为 AllowGet。
1.问题描述 mvc从一个路径获取所有的图片信息,ajax方法如下: function getimages(day) { var year = $("#selYear").val( ...
- MyBatis ResultMap Assocation 返回属性为null的问题
Model: public class Employee { private Integer id; private String lastName; private String email; pr ...
- Java代码实现文件添加数字签名、验证数字签名
Linux下实现加签.验签 1.使用OpenSSL 生成公钥和密钥: #用 OpenSSL, Linux 上自带,常用命令如下: #生成 RSA 私钥(传统格式的) openssl genrsa -o ...
- php utf8编码字符串的截取
function sub_str($str, $length = 0, $append = true) { $str = trim($str); $strlength = strlen($str); ...
- 【静默】Oracle各类响应文件何在?
[静默]Oracle各类响应文件何在? --root用户下执行: find -name *.rsp / 1.创建数据库的响应文件:$ORACLE_HOME/assistants/dbca/dbca. ...
- PowerDesigner 15进行逆向工程生成数据库图表时,注释的comment的生成,解决PowerDesigner逆向工程没有列注释
使用PowerDesigner默认配置逆向工程是没有注释(name列为英文,comment列是空的),这样的不方便查看字段具体是什么意义,将注释一同导出,方便查看字段具体的意义,如下图 注释列导出步骤 ...
- java发送邮件无法显示图片 图裂 的解决办法
package com.thinkgem.jeesite.common.utils; import org.slf4j.Logger; import org.slf4j.LoggerFactory; ...
- How not to alienate your reviewers, aka writing a decent rebuttal?
[forwarded from https://nebelwelt.net/blog/20180704-rebuttal.html] Assuming you have given everythin ...
- 算法提高 最小方差生成树(Kruskal)_模板
算法提高 最小方差生成树 时间限制:1.0s 内存限制:256.0MB 问题描述 给定带权无向图,求出一颗方差最小的生成树. 输入格式 输入多组测试数据.第一行为N,M,依次是 ...