Kaggle之泰坦尼克号幸存预测估计】的更多相关文章

上次已经讲了怎么下载数据,这次就不说废话了,直接开始.首先导入相应的模块,然后检视一下数据情况.对数据有一个大致的了解之后,开始进行下一步操作. 一.分析数据 1.Survived 的情况 train_data['Survived'].value_counts() 2.Pclass 和 Survived 之间的关系 train_data.groupby('Pclass')['Survived'].mean() 3.Embarked 和 Survived 之间的关系 train_data.grou…
前言 这个是Kaggle比赛中泰坦尼克号生存率的分析.强烈建议在做这个比赛的时候,再看一遍电源<泰坦尼克号>,可能会给你一些启发,比如妇女儿童先上船等.所以是否获救其实并非随机,而是基于一些背景有先后顺序的. 1,背景介绍 1912年4月15日,载着1316号乘客和891名船员的豪华巨轮泰坦尼克号在首次航行期间撞上冰山后沉没,2224名乘客和机组人员中有1502人遇难.沉船导致大量伤亡的原因之一是没有足够的救生艇给乘客和船员.虽然幸存下来有一些运气因素,但有一些人比其他人更有可能生存,比如妇女…
1.题目 这道题目的地址在https://www.kaggle.com/c/titanic,题目要求大致是给出一部分泰坦尼克号乘船人员的信息与最后生还情况,利用这些数据,使用机器学习的算法,来分析预测另一部分人员最后是否生还.题目练习的要点是语言和数据分析的基础内容(比如python.numpy.pandas等)以及二分类算法. 数据集包含3个文件:train.csv(训练数据).test.csv(测试数据).gender_submission.csv(最后提交结果的示例,告诉大家提交的文件长什…
分享一篇kaggle入门级案例,泰坦尼克号幸存遇难分析. 参考文章: 技术世界,原文链接 http://www.jasongj.com/ml/classification/ 案例分析内容: 通过训练集分析预测什么人可能生还,并对测试集中乘客做出预测判断 案例分析 加载包 library(dplyr) #bind_rows() library(ggplot2) #绘图 library(ggthemes) library(InformationValue) #计算WOE和IV library(str…
>> Score 最近用随机森林玩了 Kaggle 的泰坦尼克号项目,顺便记录一下. Kaggle - Titanic: Machine Learning from Disaster Ongoing: Top 8% >> Details Sample Code download here…
目录 前言 相关性分析 数据 数据特点 相关性分析 数据预处理 预测模型 Logistic回归训练模型 模型优化 前言 一般接触kaggle的入门题,已知部分乘客的年龄性别船舱等信息,预测其存活情况,二分类问题. python,所需库 机器学习scikit-learn,数据分析pandas,科学计算numpy,画图工具matplotlib,详细的指导说明 本篇大多是整理了下寒小阳的博文,按照他的思路先熟悉一下. 相关性分析 数据 数据如表所示,Pclass 等级,Sibsp 同辈亲戚人数,Par…
完整代码见kaggle kernel 或 NbViewer 比赛页面:https://www.kaggle.com/c/titanic Titanic大概是kaggle上最受欢迎的项目了,有7000多支队伍参加,多年来诞生了无数关于该比赛的经验分享.正是由于前人们的无私奉献,我才能无痛完成本篇. 事实上kaggle上的很多kernel都聚焦于某个特定的层面(比如提取某个不为人知的特征.使用超复杂的算法.专做EDA画图之类的),当然因为这些作者本身大都是大神级别的,所以平日里喜欢钻研一些奇淫巧技.…
泰坦里克号预测生还人口问题 泰坦尼克号问题背景 - 就是那个大家都熟悉的『Jack and Rose』的故事,豪华游艇倒了,大家都惊恐逃生,可是救生艇#### 的数量有限,无法人人都有,副船长发话了lady and kid first!,所以是否获救其实并非随机,而是基#### 于一些背景有rank先后的. - 训练和测试数据是一些乘客的个人信息以及存活状况,要尝试根据它生成合适的模型并预测其他人的存活状况. 一.数据预处理 import pandas as pd #数据分析 import nu…
作者:炼己者 具体操作请看这里-- https://www.jianshu.com/p/e79a8c41cb1a 大家也可以看PDF版,用jupyter notebook写的,视觉效果上感觉会更棒 链接:https://pan.baidu.com/s/1a5ZCUm45f5T4HTjN8t6L5Q 密码:ki39 摘要 本文主要是带你入门kaggle最基础的比赛--泰坦尼克号之灾,里面有各种可视化为你展示做的过程,并非只有一大段代码,希望能带大家真正地去入门 这是我二月份参加的kaggle大赛,…
引言 Kaggle官方网站 这是泰坦尼克号事件的基本介绍: 我们需要做的就是通过给出的数据集,通过对特征值的分析以及运用机器学习模型,分析什么样的人最可能存活,并给出对测试集合的预测. 对于Kaggle,我认为大体上有这么几个步骤: 读取数据 pd.read_csv('文件地址.csv') 读取进来的数据是dataframe的格式 EDA,也就是对数据信息进行基本的了解,例如有多少的特征值,预测值是什么,是否包含缺失值,哪些数据需要进行处理,要进行哪些处理,哪些数据可以直接被使用. 对训练集数据…