吴裕雄 python 机器学习——集成学习梯度提升决策树GradientBoostingRegressor回归模型

import numpy as np

import matplotlib.pyplot as plt

from sklearn import datasets,ensemble

from sklearn.model_selection import train_test_split

def load_data_regression():

    '''

    加载用于回归问题的数据集

    '''

    #使用 scikit-learn 自带的一个糖尿病病人的数据集

    diabetes = datasets.load_diabetes()

    # 拆分成训练集和测试集，测试集大小为原始数据集大小的 1/4

    return train_test_split(diabetes.data,diabetes.target,test_size=0.25,random_state=0) 

#集成学习梯度提升决策树GradientBoostingRegressor回归模型

def test_GradientBoostingRegressor(*data):

    X_train,X_test,y_train,y_test=data

    regr=ensemble.GradientBoostingRegressor()

    regr.fit(X_train,y_train)

    print("Training score:%f"%regr.score(X_train,y_train))

    print("Testing score:%f"%regr.score(X_test,y_test))

# 获取分类数据

X_train,X_test,y_train,y_test=load_data_regression()

# 调用 test_GradientBoostingRegressor

test_GradientBoostingRegressor(X_train,X_test,y_train,y_test)

def test_GradientBoostingRegressor_num(*data):

    '''

    测试 GradientBoostingRegressor 的预测性能随 n_estimators 参数的影响

    '''

    X_train,X_test,y_train,y_test=data

    nums=np.arange(1,200,step=2)

    fig=plt.figure()

    ax=fig.add_subplot(1,1,1)

    testing_scores=[]

    training_scores=[]

    for num in nums:

        regr=ensemble.GradientBoostingRegressor(n_estimators=num)

        regr.fit(X_train,y_train)

        training_scores.append(regr.score(X_train,y_train))

        testing_scores.append(regr.score(X_test,y_test))

    ax.plot(nums,training_scores,label="Training Score")

    ax.plot(nums,testing_scores,label="Testing Score")

    ax.set_xlabel("estimator num")

    ax.set_ylabel("score")

    ax.legend(loc="lower right")

    ax.set_ylim(0,1.05)

    plt.suptitle("GradientBoostingRegressor")

    plt.show()

# 调用 test_GradientBoostingRegressor_num

test_GradientBoostingRegressor_num(X_train,X_test,y_train,y_test)

def test_GradientBoostingRegressor_maxdepth(*data):

    '''

    测试 GradientBoostingRegressor 的预测性能随 max_depth 参数的影响

    '''

    X_train,X_test,y_train,y_test=data

    maxdepths=np.arange(1,20)

    fig=plt.figure()

    ax=fig.add_subplot(1,1,1)

    testing_scores=[]

    training_scores=[]

    for maxdepth in maxdepths:

        regr=ensemble.GradientBoostingRegressor(max_depth=maxdepth,max_leaf_nodes=None)

        regr.fit(X_train,y_train)

        training_scores.append(regr.score(X_train,y_train))

        testing_scores.append(regr.score(X_test,y_test))

    ax.plot(maxdepths,training_scores,label="Training Score")

    ax.plot(maxdepths,testing_scores,label="Testing Score")

    ax.set_xlabel("max_depth")

    ax.set_ylabel("score")

    ax.legend(loc="lower right")

    ax.set_ylim(-1,1.05)

    plt.suptitle("GradientBoostingRegressor")

    plt.show()

# 调用 test_GradientBoostingRegressor_maxdepth

test_GradientBoostingRegressor_maxdepth(X_train,X_test,y_train,y_test)

def test_GradientBoostingRegressor_learning(*data):

    '''

    测试 GradientBoostingRegressor 的预测性能随 learning_rate 参数的影响

    '''

    X_train,X_test,y_train,y_test=data

    learnings=np.linspace(0.01,1.0)

    fig=plt.figure()

    ax=fig.add_subplot(1,1,1)

    testing_scores=[]

    training_scores=[]

    for learning in learnings:

        regr=ensemble.GradientBoostingRegressor(learning_rate=learning)

        regr.fit(X_train,y_train)

        training_scores.append(regr.score(X_train,y_train))

        testing_scores.append(regr.score(X_test,y_test))

    ax.plot(learnings,training_scores,label="Training Score")

    ax.plot(learnings,testing_scores,label="Testing Score")

    ax.set_xlabel("learning_rate")

    ax.set_ylabel("score")

    ax.legend(loc="lower right")

    ax.set_ylim(-1,1.05)

    plt.suptitle("GradientBoostingRegressor")

    plt.show()

# 调用 test_GradientBoostingRegressor_learning

test_GradientBoostingRegressor_learning(X_train,X_test,y_train,y_test)

def test_GradientBoostingRegressor_subsample(*data):

    '''

    测试 GradientBoostingRegressor 的预测性能随 subsample 参数的影响

    '''

    X_train,X_test,y_train,y_test=data

    fig=plt.figure()

    ax=fig.add_subplot(1,1,1)

    subsamples=np.linspace(0.01,1.0,num=20)

    testing_scores=[]

    training_scores=[]

    for subsample in subsamples:

        regr=ensemble.GradientBoostingRegressor(subsample=subsample)

        regr.fit(X_train,y_train)

        training_scores.append(regr.score(X_train,y_train))

        testing_scores.append(regr.score(X_test,y_test))

    ax.plot(subsamples,training_scores,label="Training Score")

    ax.plot(subsamples,testing_scores,label="Training Score")

    ax.set_xlabel("subsample")

    ax.set_ylabel("score")

    ax.legend(loc="lower right")

    ax.set_ylim(-1,1.05)

    plt.suptitle("GradientBoostingRegressor")

    plt.show()

# 调用 test_GradientBoostingRegressor_subsample

test_GradientBoostingRegressor_subsample(X_train,X_test,y_train,y_test)

def test_GradientBoostingRegressor_loss(*data):

    '''

    测试 GradientBoostingRegressor 的预测性能随不同的损失函数和 alpha 参数的影响

    '''

    X_train,X_test,y_train,y_test=data

    fig=plt.figure()

    nums=np.arange(1,200,step=2)

    ########## 绘制 huber ######

    ax=fig.add_subplot(2,1,1)

    alphas=np.linspace(0.01,1.0,endpoint=False,num=5)

    for alpha in alphas:

        testing_scores=[]

        training_scores=[]

        for num in nums:

            regr=ensemble.GradientBoostingRegressor(n_estimators=num,loss='huber',alpha=alpha)

            regr.fit(X_train,y_train)

            training_scores.append(regr.score(X_train,y_train))

            testing_scores.append(regr.score(X_test,y_test))

        ax.plot(nums,training_scores,label="Training Score:alpha=%f"%alpha)

        ax.plot(nums,testing_scores,label="Testing Score:alpha=%f"%alpha)

    ax.set_xlabel("estimator num")

    ax.set_ylabel("score")

    ax.legend(loc="lower right",framealpha=0.4)

    ax.set_ylim(0,1.05)

    ax.set_title("loss=%huber")

    plt.suptitle("GradientBoostingRegressor")

    #### 绘制 ls  和 lad

    ax=fig.add_subplot(2,1,2)

    for loss in ['ls','lad']:

        testing_scores=[]

        training_scores=[]

        for num in nums:

            regr=ensemble.GradientBoostingRegressor(n_estimators=num,loss=loss)

            regr.fit(X_train,y_train)

            training_scores.append(regr.score(X_train,y_train))

            testing_scores.append(regr.score(X_test,y_test))

        ax.plot(nums,training_scores,label="Training Score:loss=%s"%loss)

        ax.plot(nums,testing_scores,label="Testing Score:loss=%s"%loss)

    ax.set_xlabel("estimator num")

    ax.set_ylabel("score")

    ax.legend(loc="lower right",framealpha=0.4)

    ax.set_ylim(0,1.05)

    ax.set_title("loss=ls,lad")

    plt.suptitle("GradientBoostingRegressor")

    plt.show()

# 调用 test_GradientBoostingRegressor_loss

test_GradientBoostingRegressor_loss(X_train,X_test,y_train,y_test)

def test_GradientBoostingRegressor_max_features(*data):

    '''

    测试 GradientBoostingRegressor 的预测性能随 max_features 参数的影响

    '''

    X_train,X_test,y_train,y_test=data

    fig=plt.figure()

    ax=fig.add_subplot(1,1,1)

    max_features=np.linspace(0.01,1.0)

    testing_scores=[]

    training_scores=[]

    for features in max_features:

        regr=ensemble.GradientBoostingRegressor(max_features=features)

        regr.fit(X_train,y_train)

        training_scores.append(regr.score(X_train,y_train))

        testing_scores.append(regr.score(X_test,y_test))

    ax.plot(max_features,training_scores,label="Training Score")

    ax.plot(max_features,testing_scores,label="Training Score")

    ax.set_xlabel("max_features")

    ax.set_ylabel("score")

    ax.legend(loc="lower right")

    ax.set_ylim(0,1.05)

    plt.suptitle("GradientBoostingRegressor")

    plt.show()

# 调用 test_GradientBoostingRegressor_max_features

test_GradientBoostingRegressor_max_features(X_train,X_test,y_train,y_test)

吴裕雄 python 机器学习——集成学习梯度提升决策树GradientBoostingRegressor回归模型的更多相关文章

吴裕雄 python 机器学习——集成学习随机森林RandomForestRegressor回归模型
import numpy as np import matplotlib.pyplot as plt from sklearn import datasets,ensemble from sklear ...
吴裕雄 python 机器学习——集成学习随机森林RandomForestClassifier分类模型
import numpy as np import matplotlib.pyplot as plt from sklearn import datasets,ensemble from sklear ...
吴裕雄 python 机器学习——集成学习AdaBoost算法回归模型
import numpy as np import matplotlib.pyplot as plt from sklearn import datasets,ensemble from sklear ...
吴裕雄 python 机器学习——集成学习AdaBoost算法分类模型
import numpy as np import matplotlib.pyplot as plt from sklearn import datasets,ensemble from sklear ...
吴裕雄 python 机器学习——数据预处理字典学习模型
from sklearn.decomposition import DictionaryLearning #数据预处理字典学习DictionaryLearning模型 def test_Diction ...
吴裕雄 python 机器学习——人工神经网络感知机学习算法的应用
import numpy as np from matplotlib import pyplot as plt from sklearn import neighbors, datasets from ...
吴裕雄 python 机器学习——人工神经网络与原始感知机模型
import numpy as np from matplotlib import pyplot as plt from mpl_toolkits.mplot3d import Axes3D from ...
吴裕雄 python 机器学习——分类决策树模型
import numpy as np import matplotlib.pyplot as plt from sklearn import datasets from sklearn.model_s ...
吴裕雄 python 机器学习——回归决策树模型
import numpy as np import matplotlib.pyplot as plt from sklearn import datasets from sklearn.model_s ...

随机推荐

javaWeb快速入门+——初体验-HelloWorld
文章转载自 https://www.cnblogs.com/1906859953Lucas/p/10821840.html 练习成品下载 https://www.lanzous.com/i9fljkj ...
EL表达式无法获取boolean类型变量值
今天调试个程序, 有个名为isAdmin的boolean类型的变量在jsp页面获取到的值为空, 这根本就是没获取到或者变量不存在的状况啊,但是在Action中明明是赋值成false了. 上网查了一下有 ...
windows10（家庭版）+ laradock 安装踩坑记一记
Docker 安装: 首先我们需要在系统安装 Docker 的免费社区版,官方提供 Windows.Mac 及 Linux 等版本下载:下载地址.下载操作系统对应版本后,按照引导流程安装,最后打开 D ...
jmeter请求报错
jmeter发送json数据,报405.400错误解决方案: https://www.cnblogs.com/sunny-sl/p/8044284.html 405:Content-Type不对 40 ...
温故知新的经典贪心题目：今年暑假不AC？
情景: “今年暑假不AC?” “是的.” “那你干什么呢?” “看世界杯呀,笨蛋!” “@#$%^&*%...” 确实如此,世界杯来了,球迷的节日也来了,估计很多ACMer也会抛开电脑,奔向电 ...
【做题笔记】洛谷P1506 拯救oibh总部
跑一遍染色法,最后判断哪些位置没被染色即可一些技巧: 为了判断方便,把字符转换成 int 型的数字. 注意边界问题详细解释见代码 #include <iostream> #includ ...
RabbitMQ使用注意事项
用ConnectionFactory创建的TCP连接要复用,因为创建新的TCP连接比较耗时. IModel(信道)是轻量级的,可以用时创建. channel.BasicQos(0, 1, false) ...
OpenCV: “vector”: 未声明的标识符和Vector不是模板
漏写using namespace std: 会出现此错误“vector”: 未声明的标识符或者是将“vector”写成‘Vector’会出现Vector不是模板的错误:改正即可
【Python】字符串切片
classification tips 01: npy file
numpy array storation; npy/npz file. 文件存取的格式:二进制和文本.二进制格式的文件又分为NumPy专用的格式化二进制类型和无格式类型. numpy文件存取-npz ...

吴裕雄 python 机器学习——集成学习梯度提升决策树GradientBoostingRegressor回归模型

吴裕雄 python 机器学习——集成学习梯度提升决策树GradientBoostingRegressor回归模型的更多相关文章

随机推荐

热门专题