机器学习之路: python 决策树分类DecisionTreeClassifier 预测泰坦尼克号乘客是否幸存

使用python3 学习了决策树分类器的api

涉及到特征的提取，数据类型保留，分类类型抽取出来新的类型

需要网上下载数据集，我把他们下载到了本地，

可以到我的git下载代码和数据集: https://github.com/linyi0604/MachineLearning

 import pandas as pd

 from sklearn.cross_validation import train_test_split

 from sklearn.feature_extraction import DictVectorizer

 from sklearn.tree import DecisionTreeClassifier

 from sklearn.metrics import classification_report

 '''

 决策树

 涉及多个特征，没有明显的线性关系

 推断逻辑非常直观

 不需要对数据进行标准化

 '''

 '''

 1 准备数据

 '''

 # 读取泰坦尼克乘客数据，已经从互联网下载到本地

 titanic = pd.read_csv("./data/titanic/titanic.txt")

 # 观察数据发现有缺失现象

 # print(titanic.head())

 # 提取关键特征，sex, age, pclass都很有可能影响是否幸免

 x = titanic[['pclass', 'age', 'sex']]

 y = titanic['survived']

 # 查看当前选择的特征

 # print(x.info())

 '''

 <class 'pandas.core.frame.DataFrame'>

 RangeIndex: 1313 entries, 0 to 1312

 Data columns (total 3 columns):

 pclass    1313 non-null object

 age       633 non-null float64

 sex       1313 non-null object

 dtypes: float64(1), object(2)

 memory usage: 30.9+ KB

 None

 '''

 # age数据列 只有633个，对于空缺的 采用平均数或者中位数进行补充 希望对模型影响小

 x['age'].fillna(x['age'].mean(), inplace=True)

 '''

 2 数据分割

 '''

 x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.25, random_state=33)

 # 使用特征转换器进行特征抽取

 vec = DictVectorizer()

 # 类别型的数据会抽离出来 数据型的会保持不变

 x_train = vec.fit_transform(x_train.to_dict(orient="record"))

 # print(vec.feature_names_)   # ['age', 'pclass=1st', 'pclass=2nd', 'pclass=3rd', 'sex=female', 'sex=male']

 x_test = vec.transform(x_test.to_dict(orient="record"))

 '''

 3 训练模型 进行预测

 '''

 # 初始化决策树分类器

 dtc = DecisionTreeClassifier()

 # 训练

 dtc.fit(x_train, y_train)

 # 预测 保存结果

 y_predict = dtc.predict(x_test)

 '''

 4 模型评估

 '''

 print("准确度:", dtc.score(x_test, y_test))

 print("其他指标：\n", classification_report(y_predict, y_test, target_names=['died', 'survived']))

 '''

 准确度: 0.7811550151975684

 其他指标：

               precision    recall  f1-score   support

        died       0.91      0.78      0.84       236

    survived       0.58      0.80      0.67        93

 avg / total       0.81      0.78      0.79       329

 '''

机器学习之路: python 决策树分类DecisionTreeClassifier 预测泰坦尼克号乘客是否幸存的更多相关文章

机器学习之路：python 集成分类器随机森林分类RandomForestClassifier 梯度提升决策树分类GradientBoostingClassifier 预测泰坦尼克号幸存者
python3 学习使用随机森林分类器梯度提升决策树分类的api,并将他们和单一决策树预测结果做出对比附上我的git,欢迎大家来参考我其他分类器的代码: https://github.com/l ...
机器学习之路: python 回归树 DecisionTreeRegressor 预测波士顿房价
python3 学习api的使用 git: https://github.com/linyi0604/MachineLearning 代码: from sklearn.datasets import ...
用Python开始机器学习（2：决策树分类算法）
http://blog.csdn.net/lsldd/article/details/41223147 从这一章开始进入正式的算法学习. 首先我们学习经典而有效的分类算法:决策树分类算法. 1.决策树 ...
机器学习之路: python k近邻分类器 KNeighborsClassifier 鸢尾花分类预测
使用python语言学习k近邻分类器的api 欢迎来到我的git查看源代码: https://github.com/linyi0604/MachineLearning from sklearn.da ...
机器学习之路: python 线性回归LinearRegression, 随机参数回归SGDRegressor 预测波士顿房价
python3学习使用api 线性回归,和随机参数回归 git: https://github.com/linyi0604/MachineLearning from sklearn.datasets ...
机器学习之路--Python
常用数据结构 1.list 列表有序集合 classmates = ['Michael', 'Bob', 'Tracy'] len(classmates) classmates[0] len(cla ...
chapter02 三种决策树模型：单一决策树、随机森林、GBDT（梯度提升决策树）预测泰坦尼克号乘客生还情况
单一标准的决策树:会根每维特征对预测结果的影响程度进行排序,进而决定不同特征从上至下构建分类节点的顺序.Random Forest Classifier:使用相同的训练样本同时搭建多个独立的分类模型, ...
python 之决策树分类算法
发现帮助新手入门机器学习的一篇好文,首先感谢博主!:用Python开始机器学习(2:决策树分类算法) J. Ross Quinlan在1975提出将信息熵的概念引入决策树的构建,这就是鼎鼎大名的ID3 ...
（数据科学学习手札23）决策树分类原理详解&Python与R实现
作为机器学习中可解释性非常好的一种算法,决策树(Decision Tree)是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方 ...

随机推荐

Entity Framework(EF的Code First方法)
EntityFramework,是Microsoft的一款ORM(Object-Relation-Mapping)框架.同其它ORM(如,NHibernate,Hibernate)一样, 一是为了使开 ...
yii验证系统学习记录，基于yiicms（二）
/** * Validates the specified object. * @param \yii\base\Model $model the data model being validated ...
J - Clairewd’s message HDU - 4300（扩展kmp）
题目链接:https://cn.vjudge.net/contest/276379#problem/J 感觉讲的很好的一篇博客:https://subetter.com/articles/extend ...
D - Doing Homework HDU - 1074 (状压dp)
题目链接:https://cn.vjudge.net/contest/68966#problem/D 具体思路:我们可以把每个情况都枚举出来,然后用递归的形式求出最终的情况. 比如说我们要求 10 ...
imperva命令行查看流量值大小
watch -d -n 1 /proc/hades/status echo clear > /proc/hades/status //清除这些记录
【Python学习笔记】使用python进行kmeans聚类
使用python进行kmeans聚类假设我们要解决一个这样的问题. 以下是一些同学,大萌是一个学霸,而我们想要找到这些人中的潜在学霸,所以我们要把这些人分为两类--学霸与非学霸. 高数英语 Pyt ...
#ifdef __cplusplus extern "C" { #endif”的定义的含义
看一些程序的时候老是有“#ifdef __cplusplusextern "C" {#endif”的定义,搞搞清楚是怎么回事: Microsoft-Specific Predefi ...
大数据系列之分布式大数据查询引擎Presto
关于presto部署及详细介绍请参考官方链接 http://prestodb-china.com PRESTO是什么? Presto是一个开源的分布式SQL查询引擎,适用于交互式分析查询,数据量支持G ...
Nginx - Header详解
1. 前言通过 HttpHeadersModule 模块可以设置HTTP头,但是不能重写已经存在的头,比如可能相对server头进行重写,可以添加其他的头,例如:Cache-Control,设置生存 ...
collection.toArray(new String[0])中new String[0]的作用
new string[0]的作用比如:String[] result = set.toArray(new String[0]); Collection的公有方法中,toArray()是比较重要的一个 ...

机器学习之路: python 决策树分类DecisionTreeClassifier 预测泰坦尼克号乘客是否幸存

机器学习之路: python 决策树分类DecisionTreeClassifier 预测泰坦尼克号乘客是否幸存的更多相关文章

随机推荐

热门专题