【笔记】使用scikit-learn解决回归问题

DbWong_0918 2024-10-02 20:27:31 原文

使用sklearn解决回归问题

依然是加载数据

  import numpy as np

  import matplotlib.pyplot as plt

  from sklearn import datasets

  boston = datasets.load_boston()

  X = boston.data

  y = boston.target

  X = X[y < 50.0]

  y = y[y < 50.0]

通过shape看X矩阵中的结构

  X.shape

然后对数据集进行切分，由于sklearn中的随机和分割方法不同，因此，使用自己的会比较能体现出来，但是，我懒得改了

  from sklearn.model_selection import train_test_split

  X_train,X_test,y_train,y_test =       train_test_split(X,y,random_state=666)

在sklearn中使用线性回归

引用并实例化

  from sklearn.linear_model import LinearRegression

  lin_reg = LinearRegression()

将X_train,y_train传进去，进行fit

  lin_reg.fit(X_train,y_train)

查看其中的内容

lin_reg.coef_

lin_reg.intercept_

lin_reg.score(X_test,y_test)

Knn regressor

我们也可以使用knn来解决回归问题

先到用相应的类并对其进行初始化，k默认为5，在fit以后，最后看一下准确率

  from sklearn.neighbors import KNeighborsRegressor

  knn_reg = KNeighborsRegressor()

  knn_reg.fit(X_train,y_train)

  knn_reg.score(X_test,y_test)

knn中含有超参数，我们使用网格搜索的方式来搜索一下相应的超参数，需要定义数组规定范围，创建变量构造函数，使用并行处理（-1为全部核心），并进行输出

  from sklearn.model_selection import GridSearchCV

  param_grid = [

      {

          'weights':['uniform'],

          'n_neighbors':[i for i in range(1,11)]

      },

      {

          'weights':['distance'],

          'n_neighbors':[i for i in range(1,11)],

          'p': [i for i in range(1,6)]

      }

  ]

  knn_reg = KNeighborsRegressor()

  grid_search = GridSearchCV(knn_reg,param_grid ,n_jobs=-1,verbose=1)

  grid_search.fit(X_train,y_train)

得到结果以后可以简单地来看看最好的结果（不知道为啥，很多计算的数据结果我都和课程不一样，不知道是电脑问题还是版本问题）

  grid_search.best_params_

预测准确率

  grid_search.best_score_

为了得到相同的衡量标准的预测率结果，来真正看基于网格搜索算法的结果

  grid_search.best_estimator_.score(X_test,y_test)

这是不如线性回归的结果的

但是也是有一部分原因是因为使用网格搜索的时候我们比较实用的score是 GridSearchCV中的score的计算方法，我们没有挑出来使用我们这组数据中的score的来获得的最佳参数，不能武断的说某算法不如某算法，要结合应用环境以及场景才行

【笔记】使用scikit-learn解决回归问题的更多相关文章

(原创)（四）机器学习笔记之Scikit Learn的Logistic回归初探
目录 5.3 使用LogisticRegressionCV进行正则化的 Logistic Regression 参数调优一.Scikit Learn中有关logistics回归函数的介绍 1. 交叉 ...
(原创)（三）机器学习笔记之Scikit Learn的线性回归模型初探
一.Scikit Learn中使用estimator三部曲 1. 构造estimator 2. 训练模型:fit 3. 利用模型进行预测:predict 二.模型评价模型训练好后,度量模型拟合效果的 ...
【笔记】SVM思想解决回归问题
使用svm思想解决回归问题使用svm思想解决是如何解决回归问题,其中回归问题的本质就是找一条线,能够最好的拟合数据点怎么定义拟合就是回归算法的关键,线性回归算法就是让预测的直线的MSE的值最小,对 ...
Scikit Learn: 在python中机器学习
转自:http://my.oschina.net/u/175377/blog/84420#OSC_h2_23 Scikit Learn: 在python中机器学习 Warning 警告:有些没能理解的 ...
scikit learn 模块调参 pipeline+girdsearch 数据举例：文档分类（python代码）
scikit learn 模块调参 pipeline+girdsearch 数据举例:文档分类数据集 fetch_20newsgroups #-*- coding: UTF-8 -*- import ...
UFLDL深度学习笔记（二）SoftMax 回归(矩阵化推导)
UFLDL深度学习笔记 (二)Softmax 回归本文为学习"UFLDL Softmax回归"的笔记与代码实现,文中略过了对代价函数求偏导的过程,本篇笔记主要补充求偏导步骤的详细 ...
机器学习：SVM（SVM 思想解决回归问题）
一.SVM 思想在解决回归问题上的体现回归问题的本质:找到一条直线或者曲线,最大程度的拟合数据点: 怎么定义拟合,是不同回归算法的关键差异: 线性回归定义拟合方式:让所有数据点到直线的 MSE 的值 ...
Scikit Learn
Scikit Learn Scikit-Learn简称sklearn,基于 Python 语言的,简单高效的数据挖掘和数据分析工具,建立在 NumPy,SciPy 和 matplotlib 上.
《机器学习实战》学习笔记第五章 —— Logistic回归
一.有关笔记: 1..吴恩达机器学习笔记(二) —— Logistic回归 2.吴恩达机器学习笔记(十一) —— Large Scale Machine Learning 二.Python源码(不带正 ...

随机推荐

AcWing 106. 动态中位数
依次读入一个整数序列,每当已经读入的整数个数为奇数时,输出已读入的整数构成的序列的中位数. #include<bits/stdc++.h> using namespace std; pri ...
AcWing 204. 表达整数的奇怪方式
#include<bits/stdc++.h> using namespace std; typedef long long LL; LL exgcd(LL a,LL b,LL & ...
Java：代码高效优化
本文转自阿里技术站,感谢阿里前辈提供的技术知识,微信关注 "阿里技术" 公众号即可实时学习. 1.常量&变量 1.1.直接赋值常量值,禁止声明新对象直接赋值常量值,只是创 ...
linux学习之路第九天（任务调度）
crond 任务调度概念任务调度:是指的系统在某个时间执行的特定命令或程序. 比喻理解: 可以这样理解,比如生活中有闹钟,闹钟的作用是不是叫人起床的,那古时候没有闹钟,叫人起床的工作是不是要人去完 ...
FirstDay
昨天心血来潮,想着注册一博客,没想到今天再登时,审阅就通过了,多少有点庆辛.从今天起,我也算是有博客的人了! 为什么选博客园开通?好多IT论坛里都允许有博文,CSDN感觉过于高大上,其他系列论坛大多内 ...
关键字abstract和static总结
1. abstract:意为抽象,在Java中可以修饰方法或者类 (1)修饰方法,这个方法是抽象方法,无方法体,这个类一定是抽象类,这个类的子类必须实现这个抽象方法: (2)修饰类,这个类一定是抽象 ...
访问其他人的vue项目
本地git拉取项目 git clone git@git路径项目clone到本地后 1.工具命令行切换到此项目路径下 cd 路径名称 2.首先要下载项目所需要的资源包 npm install 这里会 ...
PYTHON 得到ADB的输出结果
#利用ADB DEVICES结果判断指定手机是否正常连接,如果为offline,则adb disconnect sjh:adb connect sjh#如果没有,则执行adb connect sjhd ...
C语言：位域详解
有些数据在存储时并不需要占用一个完整的字节,只需要占用一个或几个二进制位即可.例如开关只有通电和断电两种状态,用 0 和 1 表示足以,也就是用一个二进位.正是基于这种考虑,C语言又提供了一种叫做位域 ...
printf函数返回值
//返回值:正确返回输出的字符总数,错误返回负值,与此同时,输入输出流错误标志将被置值,可由指示器ferror来检查输入输出流的错误标志. #include <stdio.h> #defi ...