Titanic 数据集是从 kaggle下载的,下载地址:https://www.kaggle.com/c/titanic/data 数据一共又3个文件,分别是:train.csv,test.csv,gender_submission.csv 先把需要视同的库导入: import os import datetime import operator import numpy as np import pandas as pd import xgboost as xgb from sklearn.…
Titanic 数据集是从 kaggle下载的,下载地址:https://www.kaggle.com/c/titanic/data 数据一共又3个文件,分别是:train.csv,test.csv,gender_submission.csv 先把需要视同的库导入: import os import datetime import operator import numpy as np import pandas as pd import xgboost as xgb from sklearn.…
本文转自:lytforgood 机器学习总结-sklearn参数解释 实验数据集选取: 1分类数据选取 load_iris 鸢尾花数据集 from sklearn.datasets import load_iris data = load_iris() data.data[[10, 25, 50]] data.target[[10, 25, 50]] list(data.target_names) list(data.feature_names) 2回归数据选取 from sklearn.dat…
人工神经网络(ANN),简称神经网络,是一种模仿生物神经网络的结构和功能的数学模型或计算模型.神经网络由大量的人工神经元联结进行计算.大多数情况下人工神经网络能在外界信息的基础上改变内部结构,是一种自适应系统.现代神经网络是一种非线性统计性数据建模工具,常用来对输入和输出间复杂的关系进行建模,或用来探索数据的模式. 人工神经网络从以下四个方面去模拟人的智能行为: 物理结构:人工神经元将模拟生物神经元的功能 计算模拟:人脑的神经元有局部计算和存储的功能,通过连接构成一个系统.人工神经网络中也有大量…
[ML学习笔记] XGBoost算法 回归树 决策树可用于分类和回归,分类的结果是离散值(类别),回归的结果是连续值(数值),但本质都是特征(feature)到结果/标签(label)之间的映射. 这时候就没法用信息增益.信息增益率.基尼系数来判定树的节点分裂了,那么回归树采用新的方式是预测误差,常用的有均方误差.对数误差等(损失函数).而且节点不再是类别,而是数值(预测值),划分到叶子后的节点预测值有不同的计算方法,有的是节点内样本均值,有的是最优化算出来的比如Xgboost. XGBoost…
  基于房价数据,在python中训练得到一个线性回归的模型,在JavaWeb中加载模型完成房价预测的功能. 一. 训练.保存模型 工具:PyCharm-2017.Python-39.sklearn2pmml-0.76.1. 1.训练数据house_price.csv No square_feet price 1 150 6450 2 200 7450 3 250 8450 4 300 9450 5 350 11450 6 400 15450 7 600 18450 2.训练.保存模型 impo…
Python机器学习库sklearn的安装 scikit-learn是Python的一个开源机器学习模块,它建立在NumPy,SciPy和matplotlib模块之上能够为用户提供各种机器学习算法接口,可以让用户简单.高效地进行数据挖掘和数据分析. Ubuntu14.04系统上安装 安装numpy 首选需要安装numpy: pip install numpy 安装scipy $ sudo apt-get install libblas-dev liblapack-dev libatlas-bas…
目录 一.经验误差与过拟合 二.评估方法 模型评估方法 1. 留出法(hold-out) 2. 交叉验证法(cross validation) 3. 自助法(bootstrapping) 调参(parameter tuning)和最终模型 数据集(data set) 三.性能度量(performance measure) 1. 回归任务的性能度量 1.1 均方误差.均方根误差 1.2 平方绝对误差 1.3 确定系数\(R^2\) 2. 分类任务的性能度量 2.1 错误率.精度 2.2 查准率.查…
使用python3 学习了决策树分类器的api 涉及到 特征的提取,数据类型保留,分类类型抽取出来新的类型 需要网上下载数据集,我把他们下载到了本地, 可以到我的git下载代码和数据集: https://github.com/linyi0604/MachineLearning import pandas as pd from sklearn.cross_validation import train_test_split from sklearn.feature_extraction impor…
XGBClassifier是xgboost的sklearn版本.代码完整的展示了使用xgboost建立模型的过程,并比较xgboost和randomForest的性能. # -*- coding: utf-8 -*- """ # 作者:wanglei5205 # 邮箱:wanglei5205@126.com # 博客:http://cnblogs.com/wanglei5205 # github:http://github.com/wanglei5205 "&quo…