kaggle Titanic

# coding: utf-8

# In[19]:

# 0.78468

# In[20]:

import numpy as np

import pandas as pd

import warnings

warnings.filterwarnings('ignore')

from sklearn import preprocessing

# In[21]:

train_path = r'C:\Users\cbattle\Desktop\train.csv' # r'/home/adminn/桌面/train.csv'

test_path = r'C:\Users\cbattle\Desktop\test.csv' # r'/home/adminn/桌面/test.csv'

out_path = r'C:\Users\cbattle\Desktop\out.csv' # r'/home/adminn/桌面/out.csv'

train = pd.read_csv(train_path)

test = pd.read_csv(test_path)

print('train:',train.shape)

print('test:',test.shape)

# train.info()

# test.info()

# print(train.head())

# 属性列

# print([col for col in train])

# print([col for col in test])

# 策略

# ['PassengerId', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp', 'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked']

#     drop          onehot   drop    0/1    num    num       num      drop     num      0/1    用S补空，onehot

# In[22]:

X = train.drop(['Survived','PassengerId','Name'], axis=1)

y = train['Survived']

Xtest = test.drop(['PassengerId','Name'], axis=1)

# print('X:',X.shape)

# print('y:',y.shape)

# print('Xtest:',Xtest.shape)

# In[23]:

key = [col for col in X if X[col].dtype != 'object' # numberic ['Pclass', 'Age', 'SibSp', 'Parch', 'Fare']

       or col == 'Sex'

       or col == 'Embarked'

       or col == 'Cabin'

      ]

X = X[key]

Xtest = Xtest[key]

# print(key)

def showNullNum(a,b):

    print(a.isnull().sum())

    print()

    print(b.isnull().sum())

    print('------------------------------------')

showNullNum(X,Xtest)

# Xtest['Fare'][Xtest['Fare'].isnull()] = Xtest['Fare'].median() # replace nan with median

# X = X.dropna(axis=0) # drop X and y in the same row

#-------------------------------------------------------------------------------

# Pclass    Ticket class

# 1 = 1st, 2 = 2nd, 3 = 3rd  onehot

# for i in X['Pclass'].unique():

#     X['Pclass_'+str(i)] = (X['Pclass']==i).astype(int)

#     Xtest['Pclass_'+str(i)] = (Xtest['Pclass']==i).astype(int)

# X = X.drop(['Pclass'],axis=1)

# Xtest = Xtest.drop(['Pclass'],axis=1)

#-------------------------------------------------------------------------------

# Sex

X['Sex'] = X['Sex'].apply(lambda i:1 if i=='female' else 0)

Xtest['Sex'] = Xtest['Sex'].apply(lambda i:1 if i=='female' else 0)

#-------------------------------------------------------------------------------

# Embarked

# 1 label encoding

X['Embarked'][X['Embarked'].isnull()] = 'S'

X['Embarked'] = X['Embarked'].map({'S':0,'C':1,'Q':2}).astype(int)

Xtest['Embarked'] = Xtest['Embarked'].map({'S':0,'C':1,'Q':2}).astype(int)

# or use sklearn.preprocessing.LabelEncoder

# print(X.head())

# print(Xtest.head())

# X['Embarked'][X['Embarked'].isnull()] = 'S'

# from sklearn import preprocessing

# le = preprocessing.LabelEncoder()

# X['Embarked'] = le.fit_transform(X['Embarked'])

# Xtest['Embarked'] = le.transform(Xtest['Embarked'])

# print(X.head())

# print(Xtest.head())

# 2 onehot

# for i in X['Embarked'].unique():

#     print(i, 'sum:', sum(X['Embarked']==i))

# X['Embarked'][X['Embarked'].isnull()] = 'S' # most_frequent

# for i in X['Embarked'].unique():

#     X['Embarked_type_'+i] = (X['Embarked']==i).astype(int)

#     Xtest['Embarked_type_'+i] = (Xtest['Embarked']==i).astype(int)

# X = X.drop(['Embarked'],axis=1)

# Xtest = Xtest.drop(['Embarked'],axis=1)

# print(X.head(10))

#-------------------------------------------------------------------------------

# Cabin

# has a cabin or not

# print(X.head(5))

Xtest['Cabin'] = Xtest['Cabin'].apply(lambda i:1 if isinstance(i,str) else 0)

X['Cabin'] = X['Cabin'].apply(lambda i:1 if isinstance(i,str) else 0)

# print(X.head(5))

#-------------------------------------------------------------------------------

# age and fare

# use median to replace nan

from sklearn.preprocessing import Imputer

ip = Imputer(strategy='median')

X = ip.fit_transform(X)

Xtest = ip.transform(Xtest)

print(np.isnan(X).sum(),np.isnan(Xtest).sum())

# In[24]:

from xgboost import XGBClassifier

xgb = XGBClassifier()

xgb.fit(X,y)

ans = xgb.predict(Xtest)

# from sklearn.tree import DecisionTreeClassifier

# from sklearn.ensemble import ExtraTreesClassifier

# from sklearn.svm import LinearSVC

# In[25]:

out = pd.DataFrame({'PassengerId':test['PassengerId'],'Survived':ans})

out.to_csv(out_path,index = False)

print('ok')

# In[26]:

from sklearn import preprocessing

le = preprocessing.LabelEncoder()

le.fit(['a','b','c'])

ans = le.transform(['a','a','c'])

print(ans)

kaggle Titanic的更多相关文章

kaggle& titanic代码
这两天报名参加了阿里天池的’公交线路客流预测‘赛,就顺便先把以前看的kaggle的titanic的训练赛代码在熟悉下数据的一些处理.题目根据titanic乘客的信息来预测乘客的生还情况.给了titan ...
kaggle Titanic心得
Titanic是kaggle上一个练手的比赛,kaggle平台提供一部分人的特征,以及是否遇难,目的是预测另一部分人是否遇难.目前抽工作之余,断断续续弄了点,成绩为0.79426.在这个比赛过程中,接 ...
Kaggle:Titanic: Machine Learning from Disaster
一直想着抓取股票的变化,偶然的机会在看股票数据抓取的博客看到了kaggle,然后看了看里面的题,感觉挺新颖的,就试了试. 题目如图:给了一个train.csv,现在预测test.csv里面的Passa ...
Kaggle Titanic补充篇
1.关于年龄Age 除了利用平均数来填充,还可以利用正态分布得到一些随机数来填充,首先得到已知年龄的平均数mean和方差std,然后生成[ mean-std, mean+std ]之间的随机数,然后 ...
Kaggle Titanic solution 纯规则学习
其实就是把train.csv拿出来看了看,找了找规律,调了调参数而已. 找到如下规律: 1.男的容易死,女的容易活 2.一等舱活,三等舱死 3.老人死,小孩活 4.兄弟姐妹多者死 5.票价高的活 6. ...
逻辑回归应用之Kaggle泰坦尼克之灾(转）
正文:14pt 代码:15px 1 初探数据先看看我们的数据,长什么样吧.在Data下我们train.csv和test.csv两个文件,分别存着官方给的训练和测试数据. import pandas ...
Kaggle 泰坦尼克
入门kaggle,开始机器学习应用之旅. 参看一些入门的博客,感觉pandas,sklearn需要熟练掌握,同时也学到了一些很有用的tricks,包括数据分析和机器学习的知识点.下面记录一些有趣的数据 ...
Survival on the Titanic (泰坦尼克号生存预测)
>> Score 最近用随机森林玩了 Kaggle 的泰坦尼克号项目,顺便记录一下. Kaggle - Titanic: Machine Learning from Disaster On ...
机器学习案例学习【每周一例】之 Titanic: Machine Learning from Disaster
下面一文章就总结几点关键: 1.要学会观察,尤其是输入数据的特征提取时,看各输入数据和输出的关系,用绘图看! 2.训练后,看测试数据和训练数据误差,确定是否过拟合还是欠拟合: 3.欠拟合的话,说明模 ...

随机推荐

浅谈FFT(快速傅里叶变换)
本文主要简单写写自己在算法竞赛中学习FFT的经历以及一些自己的理解和想法. FFT的介绍以及入门就不赘述了,网上有许多相关的资料,入门的话推荐这篇博客:FFT(最详细最通俗的入门手册),里面介绍得很详 ...
ZOJ Anagrams by Stack（堆栈中的搜索）
个人心得:算法书中的第一个例题就来了一个下马威,虽然题意很好理解但是做起来确实这么不顺手,所以自己对于搜索和堆栈理解的并不是很好, 以前也是很多这样的题目无法实施,这题要做的很明确就是输出正确的能依靠 ...
django的get_or_create
转:http://www.nanerbang.com/article/51/ get_or_create会根据条件从数据库里面查找符合条件的记录,如果没有符合条件的记录,则新创建一条记录
基于Python语言使用RabbitMQ消息队列（四）
路由在上一节我们构建了一个简单的日志系统.我们能够广播消息给很多接收者. 在本节我们将给它添加一些特性——我们让它只订阅所有消息的子集.例如,我们只把严重错误(critical error)导入到日 ...
系列文章--C#即时通讯开发
对使用UDP协议和大规模即时通讯的思考 C#[Fox即时通讯核心] 开发记录之五 (客户端界面基窗体基本完成) C#[Fox即时通讯核心] 开发记录之四(服务端多线程异步处理数据主程序大致结构 ...
git之commit改用第三方编辑器
git commit -m "***"方式提交注释,有限制,可通过调用第三方编辑器来编辑更好的注释 1 使用window自带的记事本 git config --global cor ...
centos7 安装 mysql-python时报错 EnvironmentError: mysql_config not found
pip install mysql-python 然后报错 EnvironmentError: mysql_config not found 网上搜解决方法,需要安装 mysql-devel 然后 ...
lnmp下安装curl openssl扩展
openssl http://www.mamicode.com/info-detail-1957696.html curl https://blog.csdn.net/qq_34372929/arti ...
Java-API：java.util百科
ylbtech-Java-API:java.util百科包含集合框架.遗留的 collection 类.事件模型.日期和时间设施.国际化和各种实用工具类(字符串标记生成器.随机数生成器和位数组.日期 ...
mybatis 学习五动态SQL语句
3.1 selectKey 标签在insert语句中,在Oracle经常使用序列.在MySQL中使用函数来自动生成插入表的主键,而且需要方法能返回这个生成主键.使用myBatis的selectKey ...

kaggle Titanic

kaggle Titanic的更多相关文章

随机推荐

热门专题