【机器学习学习】SKlearn + XGBoost 预测 Titanic 乘客幸存
Titanic 数据集是从 kaggle下载的,下载地址:https://www.kaggle.com/c/titanic/data
数据一共又3个文件,分别是:train.csv,test.csv,gender_submission.csv
先把需要视同的库导入:
import os
import datetime
import operator
import numpy as np
import pandas as pd
import xgboost as xgb
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import Imputer, scale
import matplotlib.pyplot as plt
不管是做机器学习,还是深度学习,还是其他的先确定是 分类问题还是回归问题,当然这两个可以互相转换的,然后拿到数据第一步肯定是先观察数据,数据是否又缺失,乱码等。
这个看一下就知道是否存活,存活是1,否则 0 ,那么就是分类 !
1,观察下数据
先观察一下数据,使用pandas读取数据:
DataFrame.head(n=5):head 方法默认取5行数据,你可以自己随便传参数,我只去10行观察下看下
pd_train = pd.read_csv('./data/titanic/train.csv')
pd_test = pd.read_csv('./data/titanic/test.csv')
pd_gender = pd.read_csv('./data/titanic/gender_submission.csv')
print(pd_train.shape, pd_test.shape)
print(pd_train.head(10))
根据观察可以看到,数据有数值类型,也有字符类型,数值类型我们称作连续变量,字符类型我们称作分类变量,连续变量是不用转换的,而分类变量是需要转成连续变量的,否则,无法运算。
还可以看到有些数据是缺失的,这部分缺失值我们也需要处理,填充或者删除
2,特征工程
根据第一步观察到的结果,我们对数据做处理。
1)将性别 Sex 列,做数值转换处理,代码如下:
# 性别 将性别字段Sex中的值 female用0,male用1代替,类型 int
pd_train['Sex'] = pd_train['Sex'].map({'female': 0, 'male': 1}).astype(int)
pd_test['Sex'] = pd_test['Sex'].map({'female': 0, 'male': 1}).astype(int)
2) 将分类变量转换位连续变量。我们使用 sklearn 库下面的 LabelEncoder() 来处理
# 将类型变量转换位连续变量
for f in pd_train.columns:
if pd_train[f].dtype == 'object':
label = LabelEncoder()
label.fit(list(pd_train[f].values))
pd_train[f] = label.transform(list(pd_train[f].values)) for f in pd_test.columns:
if pd_test[f].dtype == 'object':
label = LabelEncoder()
label.fit(list(pd_test[f].values))
pd_test[f] = label.transform(list(pd_test[f].values))
3)统计缺失的列那些,观察缺失值有多少,再决定是删除,还是填充,如果某列值的缺失严重,那就没必要填充了,直接删除。
我们采用填充的方式,使用 Imputer类来处理缺失值,这个类提供了估算缺失值的基本策略,使用缺失值所在的行/列中的平均值、中位数或者众数来填充。这个类也支持不同的缺失值编码。
# 统计缺失的列
na_train = pd_train.isnull().sum().sort_values(ascending=False)
print(na_train) # 使用均值填充缺失值
train_data= pd_train.values
imput = Imputer(missing_values="NaN", strategy="mean", axis=0)
imput = imput.fit(train_data)
train_data = imput.fit_transform(train_data) # 使用均值填充缺失值
test_data= pd_test.values
imput = Imputer(missing_values="NaN", strategy="mean", axis=0)
imput = imput.fit(test_data)
test_data = imput.fit_transform(test_data)
3,训练
经过对特征的处理,我们可以训练模型可,我使用了三个模型分别是,LogisticRegression,RandomForest,XGBClassifier
监督学习的模型都一样,必须拟合(fit)两个矩阵(数组), 训练样本的矩阵 X,大小为 [n_samples, n_features],和 训练样本目标值(标签)的数组 Y,大小为 [n_samples]:
1)LogisticRegression :逻辑回归,虽然名字叫回归,但是个分类模型
def train_logreistic():
"""
逻辑回归
"""
X_train, X_test, y_train, y_test = load_data() model = LogisticRegression(penalty='l2')
model.fit(X_train, y_train)
y_pred = model.predict(X_test)
rfc_rate, rmse = calc_accuracy(y_pred, y_test)
total = total_survival(y_pred) print("LogisticRegression acc_rate:{0:.4f},RMS:{1:.4f},存活:{2}".format( rfc_rate, rmse, total))
return rfc_rate, rmse, total
2)RandomForest:随机森林,基于树的模型,通过在分类器构造过程中引入随机性来创建一组不同的分类器。
def train_randomForster():
X_train, X_test, y_train, y_test = load_data()
model = RandomForestClassifier(n_estimators=300,max_depth=12,random_state=7)
model.fit(X_train,y_train)
y_pred = model.predict(X_test)
rfc_rate, rmse = calc_accuracy(y_pred, y_test)
total = total_survival(y_pred)
print("RandomForestClassifier acc_rate:{0:.4f},RMS:{1:.4f},存活:{2}".format(rfc_rate, rmse, total))
return rfc_rate, rmse, total
3)XGBClassifier :大规模并行boosted tree的工具,它是目前最快最好的开源boosted tree工具包,比常见的工具包快10倍以上,kaggle 比赛的神器
def train_XGBoost():
X_train, X_test, y_train, y_test = load_data()
model = xgb.XGBClassifier(max_delta_step=6, learning_rate=0.1, n_estimators=100, objective="binary:logistic",silent=True)
eval_data = [(X_test, y_test)]
model.fit(X_train, y_train, eval_set=eval_data, early_stopping_rounds=30)
y_pred = model.predict(X_test)
rfc_rate, rmse = calc_accuracy(y_pred, y_test)
total = total_survival(y_pred)
print("XGBClassifier acc_rate:{0:.4f},RMS:{1:.4f},存活:{2}".format(rfc_rate, rmse, total))
return rfc_rate, rmse, total
4,预测
model.predict(X_test) 都在里面写了,我就不说了。
三个模型最后的结果:
def train():
lg_rate, lg_rmse, lg_total = train_logreistic()
rf_rate, rf_rmse, rf_total = train_randomForster()
xg_rate, xg_rmse, xg_total = train_XGBoost()
print("LogisticRegression acc_rate:{0:.4f},RMS:{1:.4f},存活:{2}".format( lg_rate, lg_rmse, lg_total))
print("RandomForestClassifier acc_rate:{0:.4f},RMS:{1:.4f},存活:{2}".format(rf_rate, rf_rmse, rf_total))
print("XGBClassifier acc_rate:{0:.4f},RMS:{1:.4f},存活:{2}".format(xg_rate, xg_rmse, xg_total))
XGBClassifier acc_rate:80.4469,RMS:0.4422,存活:56
LogisticRegression acc_rate:74.8603,RMS:0.5014,存活:60
RandomForestClassifier acc_rate:82.6816,RMS:0.4162,存活:54
XGBClassifier acc_rate:80.4469,RMS:0.4422,存活:56
好了,至于怎么调参,网格搜索我就不写了,简单的分析就完成了。。
参考:
1) http://xgboost.readthedocs.io/en/latest/
2) http://scikit-learn.org/stable/
3) https://www.kaggle.com/
源码地址:https://github.com/jarvisqi/machine_learning/blob/master/ml_xgboost/titanic.py
【机器学习学习】SKlearn + XGBoost 预测 Titanic 乘客幸存的更多相关文章
- 【机器学习】SKlearn + XGBoost 预测 Titanic 乘客幸存
Titanic 数据集是从 kaggle下载的,下载地址:https://www.kaggle.com/c/titanic/data 数据一共又3个文件,分别是:train.csv,test.csv, ...
- 机器学习总结-sklearn参数解释
本文转自:lytforgood 机器学习总结-sklearn参数解释 实验数据集选取: 1分类数据选取 load_iris 鸢尾花数据集 from sklearn.datasets import lo ...
- R语言与机器学习学习笔记
人工神经网络(ANN),简称神经网络,是一种模仿生物神经网络的结构和功能的数学模型或计算模型.神经网络由大量的人工神经元联结进行计算.大多数情况下人工神经网络能在外界信息的基础上改变内部结构,是一种自 ...
- [ML学习笔记] XGBoost算法
[ML学习笔记] XGBoost算法 回归树 决策树可用于分类和回归,分类的结果是离散值(类别),回归的结果是连续值(数值),但本质都是特征(feature)到结果/标签(label)之间的映射. 这 ...
- 使用pmml跨平台部署机器学习模型Demo——房价预测
基于房价数据,在python中训练得到一个线性回归的模型,在JavaWeb中加载模型完成房价预测的功能. 一. 训练.保存模型 工具:PyCharm-2017.Python-39.sklearn2 ...
- Python机器学习库sklearn的安装
Python机器学习库sklearn的安装 scikit-learn是Python的一个开源机器学习模块,它建立在NumPy,SciPy和matplotlib模块之上能够为用户提供各种机器学习算法接口 ...
- 机器学习-学习笔记(二) --> 模型评估与选择
目录 一.经验误差与过拟合 二.评估方法 模型评估方法 1. 留出法(hold-out) 2. 交叉验证法(cross validation) 3. 自助法(bootstrapping) 调参(par ...
- 机器学习之路: python 决策树分类DecisionTreeClassifier 预测泰坦尼克号乘客是否幸存
使用python3 学习了决策树分类器的api 涉及到 特征的提取,数据类型保留,分类类型抽取出来新的类型 需要网上下载数据集,我把他们下载到了本地, 可以到我的git下载代码和数据集: https: ...
- 【机器学习】集成学习之xgboost的sklearn版XGBClassifier使用教程
XGBClassifier是xgboost的sklearn版本.代码完整的展示了使用xgboost建立模型的过程,并比较xgboost和randomForest的性能. # -*- coding: u ...
随机推荐
- gcc编译相关tips
http://blog.csdn.net/benpaobagzb/article/details/51364005 静态库链接时搜索路径顺序: ld会去找GCC命令中的参数-L 再找gcc的环境变量L ...
- 17089 最大m子段和
17089 最大m子段和 时间限制:1000MS 内存限制:65535K提交次数:0 通过次数:0 题型: 编程题 语言: G++;GCC;VC Description "最大m子段和 ...
- MongoDB的CURD命令
1.启动客户端 在MongDB服务成功启动的情况下,打开cmd,在MongDB的bin文件目录下执行MongDB命令 可以看到MongDB版本号3.0.7与默认连接的数据库test.test数据库是系 ...
- Linux 文件API
9/19/2017 开始攻读<LinuxC编程实战>,这是相关的笔记 1.创建 int creat(const char *filename, mode_t mode); 参数mode指 ...
- iOS 接收新消息通知调用系统声音 震动
添加系统框架: #import <AudioToolbox/AudioToolbox.h> 调用震动代码: AudioServicesPlaySystemSound(kSystemSoun ...
- 前端MVC Vue2学习总结(四)——条件渲染、列表渲染、事件处理器
一.条件渲染 1.1.v-if 在字符串模板中,如 Handlebars ,我们得像这样写一个条件块: <!-- Handlebars 模板 --> {{#if ok}} <h1&g ...
- Windows as a Service(1)—— Windows 10服务分支
前言 作为公司的IT管理员,管理全公司Windows 10操作系统的更新一直是工作中的头疼之处.微软提供了很多方法来帮助我们管理公司的Windows 10更新,比如Windows Server Upd ...
- 学习 Kubernetes 的 Why 和 How - 每天5分钟玩转 Docker 容器技术(114)
这是一个系统学习 Kubernetes 的教程,有下面两个特点: 系统讲解当前最流行的容器编排引擎 Kubernetes包括了安装部署.应用管理.网络.存储.监控.日志管理等多各个方面. 重实践并兼顾 ...
- 学会C sharp计算机编程语言 轻松开发财务、统计软件
就像人们用同一种语言才可以顺畅交流一样,语言是计算机编程的根本,是IT世界交流的工具.运用这些计算机语言,人们可以创造出一个美妙的世界.你点击某个网页或是安装一个应用程序软件,这简简单单动作的背后,就 ...
- Django__RBAC
RBAC : 基于角色的权限访问控制(Role-Based Access Control) RBAC 模型作为目前最为广泛接受的权限模型 角色访问控制(RBAC)引入了Role的概念,目的是为了隔离U ...