Kaggle_泰坦尼克乘客存活预测】的更多相关文章

转载 逻辑回归应用之Kaggle泰坦尼克之灾 此转载只为保存!!! ————————————————版权声明:本文为CSDN博主「寒小阳」的原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接及本声明.原文链接:https://blog.csdn.net/han_xiaoyang/article/details/49797143…
最近一直断断续续的做这个泰坦尼克生存预测模型的练习,这个kaggle的竞赛题,网上有很多人都分享过,而且都很成熟,也有些写的非常详细,我主要是在牛人们的基础上,按照数据挖掘流程梳理思路,然后通过练习每一步来熟悉应用python进行数据挖掘的方式. 数据挖掘的一般过程是:数据预览——>数据预处理(缺失值.离散值等)——>变量转换(构造新的衍生变量)——>数据探索(提取特征)——>训练——>调优——>验证 1 数据预览 1.1 head() 预览数据集的前面几条数据可以大致…
Titanic 沉没 参见:https://github.com/lijingpeng/kaggle 这是一个分类任务,特征包含离散特征和连续特征,数据如下:Kaggle地址.目标是根据数据特征预测一个人是否能在泰坦尼克的沉没事故中存活下来.接下来解释下数据的格式: survival 目标列,是否存活,1代表存活 (0 = No; 1 = Yes) pclass 乘坐的舱位级别 (1 = 1st; 2 = 2nd; 3 = 3rd) name 姓名 sex 性别 age 年龄 sibsp 兄弟姐…
原文地址如下: https://www.kaggle.com/startupsci/titanic-data-science-solutions ---------------------------------------------------------------- 泰坦尼克数据科学解决方案: 1. 工作流程步骤: 在 Data Science Solutions book 这本书里,描述了在解决一个竞赛问题时所需要做的具体工作流程: 问题的定义 获取训练数据以及测试数据 加工.准备以及…
入门kaggle,开始机器学习应用之旅. 参看一些入门的博客,感觉pandas,sklearn需要熟练掌握,同时也学到了一些很有用的tricks,包括数据分析和机器学习的知识点.下面记录一些有趣的数据分析方法和一个自己撸的小程序. 1.Tricks 1) df.info():数据的特征属性,包括数据缺失情况和数据类型. df.describe(): 数据中各个特征的数目,缺失值为NaN,以及数值型数据的一些分布情况,而类目型数据看不到. 缺失数据处理:缺失的样本占总数比例极高,则直接舍弃:缺失样…
参考Kernels里面评论较高的一篇文章,整理作者解决整个问题的过程,梳理该篇是用以了解到整个完整的建模过程,如何思考问题,处理问题,过程中又为何下那样或者这样的结论等! 最后得分并不是特别高,只是到34%,更多是整理一个解决问题的思路,另外前面三个大步骤根据思维导图看即可,代码跟文字等从第四个步骤开始写起. ----------------------------------------------------------------------------------------------…
package kaggle import org.apache.spark.SparkContext import org.apache.spark.SparkConf import org.apache.spark.sql.{SQLContext, SparkSession} import org.apache.spark.mllib.regression.LabeledPoint import org.apache.spark.mllib.classification.{LogisticR…
也不知道对不对,就凭着自己的思路写了一个 数据集:https://www.kaggle.com/c/titanic/data import torch import torch.nn as nn import pandas as pd import numpy as np class DataProcessing(object): def __init__(self): pass def get_data(self): data_train = pd.read_csv('train.csv')…
目录 前言 相关性分析 数据 数据特点 相关性分析 数据预处理 预测模型 Logistic回归训练模型 模型优化 前言 一般接触kaggle的入门题,已知部分乘客的年龄性别船舱等信息,预测其存活情况,二分类问题. python,所需库 机器学习scikit-learn,数据分析pandas,科学计算numpy,画图工具matplotlib,详细的指导说明 本篇大多是整理了下寒小阳的博文,按照他的思路先熟悉一下. 相关性分析 数据 数据如表所示,Pclass 等级,Sibsp 同辈亲戚人数,Par…
出处:http://blog.csdn.net/han_xiaoyang/article/details/49797143 2.背景 2.1 关于Kaggle 我是Kaggle地址,翻我牌子 亲,逼格这么高的地方,你一定听过对不对?是!这就是那个无数『数据挖掘先驱』们,在回答”枪我有了,哪能找到靶子练练手啊?”时候的答案! 这是一个要数据有数据,要实际应用场景有场景,要一起在数据挖掘领域high得不要不要的小伙伴就有小伙伴的地方啊!!! 艾玛,逗逼模式开太猛了.恩,不闹,不闹,说正事,Kaggl…
这个题目的背景概况来讲就是基于泰坦尼克号这个事件,然后大量的人员不幸淹没在这个海难中,也有少部分人员在这次事件之中存活,然后这个问题提供了一些人员的信息如姓名.年龄.性别.票价,所在客舱等等一些信息,和是否获救,然后你建模分析,去预测另一批乘客的获救与否 py小白的无助呀- 尽管还算是写了这么写东西,dl勿喷 qwq…
正文:14pt 代码:15px 1 初探数据 先看看我们的数据,长什么样吧.在Data下我们train.csv和test.csv两个文件,分别存着官方给的训练和测试数据. import pandas as pd #数据分析 import numpy as np #科学计算 from pandas import Series,DataFrame data_train = pd.read_csv("/Users/Hanxiaoyang/Titanic_data/Train.csv") da…
比赛地址:https://www.kaggle.com/c/titanic 再次想吐槽CSDN,编辑界面经常卡死,各种按钮不能点,注释的颜色不能改,很难看清.写了很多卡死要崩溃. 我也是第一次参加这个,代码还是看了一下别人介绍的,修改了错误的代码,并且在自己的理解了改进了一点代码,排名从5900到2200,改进还是不错的.而且目前未做任何参数的微调,仅仅是代码改进了一下. 以下介绍代码及分析过程,编辑界面使用jupyter import numpy as np import pandas as…
数据来源: kaggle 分析工具:Python 3.6 & jupyter notebook 附上数据:链接: https://pan.baidu.com/s/1D7JNvHmqTIw0OoPXBWzWHA 提取码: hdtt 本篇分析比较基础,集中于清洗和可视化,欢迎各路大神指正 #设置jupyter可以打印多条结果 from IPython.core.interactiveshell import InteractiveShell InteractiveShell.ast_node_int…
使用python3 学习了决策树分类器的api 涉及到 特征的提取,数据类型保留,分类类型抽取出来新的类型 需要网上下载数据集,我把他们下载到了本地, 可以到我的git下载代码和数据集: https://github.com/linyi0604/MachineLearning import pandas as pd from sklearn.cross_validation import train_test_split from sklearn.feature_extraction impor…
python3 学习使用随机森林分类器 梯度提升决策树分类 的api,并将他们和单一决策树预测结果做出对比 附上我的git,欢迎大家来参考我其他分类器的代码: https://github.com/linyi0604/MachineLearning import pandas as pd from sklearn.cross_validation import train_test_split from sklearn.feature_extraction import DictVectoriz…
集成模型 集成分类模型是综合考量多个分类器的预测结果,从而做出决策. 综合考量的方式大体分为两种: 1.利用相同的训练数据同时搭建多个独立的分类模型,然后通过投票的方式,以少数服从多数的原则作出最终的分类决策.(随机森林分类器) 2.按照一定次序搭建多个分类模型.这些模型之间彼此存在依赖关系.一般而言,每一个后续模型的加入都要对现有集成模型的综合性能有所贡献,进而不断提升更新过后的集成模型的性能.(梯度提升决策树) 代码1:  #集成模型对泰坦尼克号乘客是否生还的预测 #导入pandas,并且重…
英文版 Jupyter Notebook 链接:https://nbviewer.jupyter.org/github/justmarkham/pandas-videos/blob/master/top_25_pandas_tricks.ipynb 中文版 Jupyter Notebook 链接:https://github.com/jaystone776/pandas_answered/blob/master/25_Pandas_Tips_by_PyCon_Master.ipynb 数据集下载…
Kaggle初体验之泰坦尼特生存预测 学习完了决策树的ID3.C4.5.CART算法,找一个试手的地方,Kaggle的练习赛泰坦尼特很不错,记录下 流程     首先注册一个账号,然后在顶部菜单栏Competitions里面搜索Titanic,找到Titanic练习赛,练习赛就用用于帮助新手入门的,在比赛的页面有很多的入门推荐,很值得去一看. 获取数据集 探索数据集 清洗数据集 特征选择 训练数据集 预测数据集 提交结果文件 获取数据集     数据集在比赛面板菜单栏的Data里面,有三个数据集…
机器学习系列(3)_逻辑回归应用之Kaggle泰坦尼克之灾 标签: 机器学习应用 2015-11-12 13:52 3688人阅读 评论(15) 收藏 举报 本文章已收录于:  机器学习知识库  分类: 机器学习(19)  版权声明:本文为博主原创文章,未经博主允许不得转载.   目录(?)[+]   作者:寒小阳 && 龙心尘 时间:2015年11月. 出处: http://blog.csdn.net/han_xiaoyang/article/details/49797143 http:…
分享一篇kaggle入门级案例,泰坦尼克号幸存遇难分析. 参考文章: 技术世界,原文链接 http://www.jasongj.com/ml/classification/ 案例分析内容: 通过训练集分析预测什么人可能生还,并对测试集中乘客做出预测判断 案例分析 加载包 library(dplyr) #bind_rows() library(ggplot2) #绘图 library(ggthemes) library(InformationValue) #计算WOE和IV library(str…
1.  kaggle泰坦尼克数据titanic完整下载,原作者良心分享 https://download.csdn.net/download/lansui7312/9936840 2. 缺失值处理 # -*- coding:utf - import pandas as pd import numpy as np from sklearn.ensemble import RandomForestRegressor df = pd.read_csv('train.csv',header=0) # S…
概述 1912年4月15日,泰坦尼克号在首次航行期间撞上冰山后沉没,2224名乘客和机组人员中有1502人遇难.沉船导致大量伤亡的原因之一是没有足够的救生艇给乘客和船员.虽然幸存下来有一些运气因素,但有一些人比其他人更有可能生存,比如妇女,儿童和上层阶级.在本文中将对哪些人可能生存作出分析,特别是运用Python和机器学习的相关模型工具来预测哪些乘客幸免于难,最后提交结果.从kaggle泰坦尼克生存预测项目下载相关数据. 实施步骤 1.提出问题 什么样的人在泰坦尼克号中更容易存活? 2.理解数据…
 下面一文章就总结几点关键: 1.要学会观察,尤其是输入数据的特征提取时,看各输入数据和输出的关系,用绘图看! 2.训练后,看测试数据和训练数据误差,确定是否过拟合还是欠拟合: 3.欠拟合的话,说明模型不准确或者特征提取不够,对于特征提取不够问题,可以根据模型的反馈来看其和数据的相关性,如果相关系数是0,则放弃特征,如果过低,说明特征需要再次提炼! 4.用集成学习,bagging等通常可以获得更高的准确度! 5.缺失数据可以使用决策树回归进行预测! 转自:http://blog.csdn.net…
1:改进我们的特征 在上一个任务中,我们完成了我们在Kaggle上一个机器学习比赛的第一个比赛提交泰坦尼克号:灾难中的机器学习. 可是我们提交的分数并不是非常高.有三种主要的方法可以让我们能够提高他: 用一个更好的机器学习算法: 生成更好的特征: 合并多重机器学习算法. 在这节的任务总,我们将会完成这三个.首先,我们将找到一个不同的算法来使用逻辑回归--随记森林(randaom forests). 2:随机森林简介 正如我们在上一节任务中顺便提到的,决策树能从数据中学会非线性趋势.一个例子如下:…
此为中文翻译版 1:竞赛 我们将学习如何为Kaggle竞赛生成一个提交答案(submisson).Kaggle是一个你通过完成算法和全世界机器学习从业者进行竞赛的网站.如果你的算法精度是给出数据集中最高的,你将赢得比赛.Kaggle也是一个实践你机器学习技能的非常有趣的方式. Kaggle网站有几种不同类型的比赛.其中的预测一个就是预测在泰坦尼克号沉没的时候哪个乘客会成为幸存者. 在这个任务和下一个任务我们将学习如何提交我们的答案. 我们的数据是csv格式.你可以在这里下载数据开始比赛. 每一行…
Kaggle入门 1:竞赛 我们将学习如何为Kaggle竞赛生成一个提交答案(submisson).Kaggle是一个你通过完成算法和全世界机器学习从业者进行竞赛的网站.如果你的算法精度是给出数据集中最高的,你将赢得比赛.Kaggle也是一个实践你机器学习技能的非常有趣的方式.Kaggle网站有几种不同类型的比赛.其中的预测一个就是预测在泰坦尼克号沉没的时候哪个乘客会成为幸存者. 在这个任务和下一个任务我们将学习如何提交我们的答案.我们的数据是csv格式.你可以在这里下载数据开始比赛.每一行重现…
介绍 参加Kaggle比赛,我必须有哪些技能呢? 你有没有面对过这样的问题?最少在我大二的时候,我有过.过去我仅仅想象Kaggle比赛的困难度,我就感觉害怕.这种恐惧跟我怕水的感觉相似.怕水,让我无法参加一些游泳课程.然而,后来,我得到的教训是只要你不真的跨进水里,你就不知道水有多深.相同的哲学对Kaggle也一样适用.没有试过之前不要下结论.     Kaggle,数据科学的家园,为竞赛参与者,客户解决方案和招聘求职提供了一个全球性的平台.这是Kaggle的特殊吸引力,它提供的竞赛不仅让你站到…
学习了机器学习这么久,第一次真正用机器学习中的方法解决一个实际问题,一步步探索,虽然最后结果不是很准确,仅仅达到了0.78647,但是真是收获很多,为了防止以后我的记忆虫上脑,我决定还是记录下来好了. 1,看到样本是,查看样本的分布和统计情况 #查看数据的统计信息print(data_train.info())#查看数据关于数值的统计信息print(data_train.describe()) 通常遇到缺值的情况,我们会有几种常见的处理方式 如果缺值的样本占总数比例极高,我们可能就直接舍弃了,作…
Histgram直方图适合于单个变量的value分布图形 seaborn在matplotlib基础上做了更高层的抽象,方便对基础的图表绘制.也可以继续使用matplotlib直接绘图,但是调用seabon的set()方法就能获得好看的样式. # Import plotting modules import matplotlib.pyplot as plt import seaborn as sns # Set default Seaborn style sns.set() # Plot hist…