机器学习之路： python 实践提升树 XGBoost 分类器

git: https://github.com/linyi0604/MachineLearning

数据集被我下载到本地，可以去我的git上拿数据集

XGBoost
提升分类器
属于集成学习模型
把成百上千个分类准确率较低的树模型组合起来
不断迭代,每次迭代生成一颗新的树

下面对泰坦尼克遇难预测
使用XGBoost模型和其他分类器性能进行比较

 import pandas as pd

 from sklearn.cross_validation import train_test_split

 from sklearn.feature_extraction import DictVectorizer

 from sklearn.ensemble import RandomForestClassifier

 from xgboost import XGBClassifier

 '''

 XGBoost

 提升分类器

     属于集成学习模型

     把成百上千个分类准确率较低的树模型组合起来

     不断迭代,每次迭代生成一颗新的树

 下面 对泰坦尼克遇难预测

 使用XGBoost模型 和 其他分类器性能进行比较

 '''

 titanic = pd.read_csv("../data/titanic/titanic.txt")

 # 抽取pclass age 和 sex 作为训练样本

 x = titanic[["pclass", "age", "sex"]]

 y = titanic["survived"]

 # 采集的age空的用平均数补全

 x["age"].fillna(x["age"].mean(), inplace=True)

 # 分割训练数据和测试数据

 x_train, x_test, y_train, y_test = train_test_split(x,

                                                     y,

                                                     test_size=0.25,

                                                     random_state=33)

 # 提取字典特征 进行 向量化

 vec = DictVectorizer()

 x_train = vec.fit_transform(x_train.to_dict(orient="record"))

 x_test = vec.transform(x_test.to_dict(orient="record"))

 # 采用默认配置的随机森林进行预测

 rfc = RandomForestClassifier()

 rfc.fit(x_train, y_train)

 print("随机森林预测准确率:", rfc.score(x_test, y_test))  # 0.7811550151975684

 # 采用XGBoost模型进行预测

 xgbc = XGBClassifier()

 xgbc.fit(x_train, y_train)

 print("XGBoost预测准确率:", xgbc.score(x_test, y_test))  # 0.7872340425531915

机器学习之路： python 实践提升树 XGBoost 分类器的更多相关文章

机器学习算法与Python实践之（四）支持向量机（SVM）实现
机器学习算法与Python实践之(四)支持向量机(SVM)实现机器学习算法与Python实践之(四)支持向量机(SVM)实现 zouxy09@qq.com http://blog.csdn.net/ ...
机器学习算法与Python实践之（三）支持向量机（SVM）进阶
机器学习算法与Python实践之(三)支持向量机(SVM)进阶机器学习算法与Python实践之(三)支持向量机(SVM)进阶 zouxy09@qq.com http://blog.csdn.net/ ...
机器学习算法与Python实践之（二）支持向量机（SVM）初级
机器学习算法与Python实践之(二)支持向量机(SVM)初级机器学习算法与Python实践之(二)支持向量机(SVM)初级 zouxy09@qq.com http://blog.csdn.net/ ...
机器学习算法与Python实践之（五）k均值聚类（k-means）
机器学习算法与Python实践这个系列主要是参考<机器学习实战>这本书.因为自己想学习Python,然后也想对一些机器学习算法加深下了解,所以就想通过Python来实现几个比较常用的机器学 ...
机器学习算法与Python实践之（六）二分k均值聚类
http://blog.csdn.net/zouxy09/article/details/17590137 机器学习算法与Python实践之(六)二分k均值聚类 zouxy09@qq.com http ...
机器学习算法与Python实践之（七）逻辑回归（Logistic Regression）
http://blog.csdn.net/zouxy09/article/details/20319673 机器学习算法与Python实践之(七)逻辑回归(Logistic Regression) z ...
机器学习之路: python k近邻分类器 KNeighborsClassifier 鸢尾花分类预测
使用python语言学习k近邻分类器的api 欢迎来到我的git查看源代码: https://github.com/linyi0604/MachineLearning from sklearn.da ...
机器学习之路: python 回归树 DecisionTreeRegressor 预测波士顿房价
python3 学习api的使用 git: https://github.com/linyi0604/MachineLearning 代码: from sklearn.datasets import ...
机器学习 | 详解GBDT梯度提升树原理，看完再也不怕面试了
本文始发于个人公众号:TechFlow,原创不易,求个关注今天是机器学习专题的第30篇文章,我们今天来聊一个机器学习时代可以说是最厉害的模型--GBDT. 虽然文无第一武无第二,在机器学习领域并没有 ...

随机推荐

27、增强for循环
增强for循环使用增强for循环可以简化数组和Collection集合的遍历,格式: for(元素数据类型变量 : 数组或者Collection集合) { 使用变量即可,该变量就是元素 } 例: ...
初时Python博大精深
Python是解释型语言编译型vs解释型编译型优点:编译器一般会有预编译的过程对代码进行优化.因为编译只做一次,运行时不需要编译,所以编译型语言的程序执行效率高.可以脱离语言环境独立运行.缺点:编 ...
log4net记录系统错误日志到文本文件用法详解
log4net是一个完全免费开源的插件,可以去官网下载源码. 一般系统操作日志不会用log4net,自己写代码存入数据库更方便合理,但是系统部署后运行在客户环境,难免会发生系统bug.崩溃.断网等无法 ...
[转]ubuntu16.04～qt 5.8无法输入中文
编译fcitx-qt需要cmake,安装cmake命令,如果已经安装,请略过. sudo apt-get install cmake 安装 fcitx-libs-dev sudo apt-get in ...
20165230 2017-2018-2 《Java程序设计》第7周学习总结
20165230 2017-2018-2 <Java程序设计>第7周学习总结教材学习内容总结第十一章 JDBC与MySQL数据库本周了解了如何在Java程序中使用JDBC语提供的AP ...
移动端测试===PROC系列之---/proc/pid/stat 如何准确取cpu的值【转】
/proc/ /stat 包含了所有CPU活跃的信息,该文件中的所有值都是从系统启动开始累计到当前时刻. [root@localhost ~]# cat /proc/6873/stat 68 ...
Tomcat安装与优化
Tomcat安装与优化 1.安装jdk环境最新的JDK下载地址:http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downlo ...
python socket编程入门级
客户端 import socket import time sk = socket.socket() # 第一步:创建socket对象 address = ('127.0.0.1', 8080) # ...
nodejs 接收上传的图片
1.nodejs接收上传的图片主要是使用formidable模块,服务器是使用的express搭建. 引入formidable var formidable = require('./node_mod ...
Flask：文件配置方式实践及其中的各种问题记录
Windows 10家庭中文版,Python 3.6.4,Flask 1.0.2, 提示: 1.请查看本文后面的“18-07-17 11:18重大纠正” ! 2.flask run命令运行时传入参数 ...

机器学习之路： python 实践 提升树 XGBoost 分类器

机器学习之路： python 实践 提升树 XGBoost 分类器的更多相关文章

随机推荐

热门专题

机器学习之路： python 实践提升树 XGBoost 分类器

机器学习之路： python 实践提升树 XGBoost 分类器的更多相关文章