scikit-learn网格搜索来进行高效的参数调优

内容概要¶

如何使用K折交叉验证来搜索最优调节参数
如何让搜索参数的流程更加高效
如何一次性的搜索多个调节参数
在进行真正的预测之前，如何对调节参数进行处理
如何削减该过程的计算代价

1. K折交叉验证回顾¶

交叉验证的过程

选择K的值（一般是10），将数据集分成K等份
使用其中的K-1份数据作为训练数据，另外一份数据作为测试数据，进行模型的训练
使用一种度量测度来衡量模型的预测性能

交叉验证的优点

交叉验证通过降低模型在一次数据分割中性能表现上的方差来保证模型性能的稳定性
交叉验证可以用于选择调节参数、比较模型性能差别、选择特征

交叉验证的缺点

交叉验证带来一定的计算代价，尤其是当数据集很大的时候，导致计算过程会变得很慢

2. 使用GridSearchCV进行高效调参¶

GridSearchCV根据你给定的模型自动进行交叉验证，通过调节每一个参数来跟踪评分结果，实际上，该过程代替了进行参数搜索时的for循环过程。

from sklearn.datasets import load_iris

from sklearn.neighbors import KNeighborsClassifier

import matplotlib.pyplot as plt

from sklearn.model_selection import GridSearchCV

iris = load_iris()

# create X (features) and y (response)

X = iris.data

y = iris.target

# define the parameter values that should be searched

k_range =[i for i in range(1, 31)]

# create a parameter grid: map the parameter names to the values that should be searched

# 下面是构建parameter grid，其结构是key为参数名称，value是待搜索的数值列表的一个字典结构

param_grid = dict(n_neighbors=k_range)

knn = KNeighborsClassifier(n_neighbors=5)

# instantiate the grid

# 这里GridSearchCV的参数形式和cross_val_score的形式差不多，其中param_grid是parameter grid所对应的参数

# GridSearchCV中的n_jobs设置为-1时，可以实现并行计算（如果你的电脑支持的情况下）

grid = GridSearchCV(knn, param_grid, cv=10, scoring='accuracy')

# 我们可以知道，这里的grid search针对每个参数进行了10次交叉验证，并且一共对30个参数进行相同过程的交叉验证

grid.fit(X, y)

# create a list of the mean scores only

print(grid.best_estimator_)

3. 同时对多个参数进行搜索¶

这里我们使用knn的两个参数，分别是n_neighbors和weights，其中weights参数默认是uniform，该参数将所有数据看成等同的，而另一值是distance，它将近邻的数据赋予更高的权重，而较远的数据赋予较低权重。

from sklearn.datasets import load_iris

from sklearn.neighbors import KNeighborsClassifier

import matplotlib.pyplot as plt

from sklearn.model_selection import GridSearchCV

iris = load_iris()

# create X (features) and y (response)

X = iris.data

y = iris.target

# define the parameter values that should be searched

k_range =[i for i in range(1, 31)]

weight_options=['uniform','distance']

# create a parameter grid: map the parameter names to the values that should be searched

# 下面是构建parameter grid，其结构是key为参数名称，value是待搜索的数值列表的一个字典结构

param_grid = dict(n_neighbors=k_range,weights=weight_options)

knn = KNeighborsClassifier(n_neighbors=5)

# instantiate the grid

# 这里GridSearchCV的参数形式和cross_val_score的形式差不多，其中param_grid是parameter grid所对应的参数

# GridSearchCV中的n_jobs设置为-1时，可以实现并行计算（如果你的电脑支持的情况下）

grid = GridSearchCV(knn, param_grid, cv=10, scoring='accuracy')

# 我们可以知道，这里的grid search针对每个参数进行了10次交叉验证，并且一共对30个参数进行相同过程的交叉验证

grid.fit(X, y)

# create a list of the mean scores only

print(grid.best_estimator_)

4. 使用最佳参数做出预测¶

knn = KNeighborsClassifier(n_neighbors=13, weights='uniform')

knn.fit(X, y)

# make a prediction on out-of-sample data

knn.predict([3, 5, 4, 2])

5. 使用RandomizeSearchCV来降低计算代价¶

RandomizeSearchCV用于解决多个参数的搜索过程中计算代价过高的问题
RandomizeSearchCV搜索参数中的一个子集，这样你可以控制计算代价

当你的调节参数是连续的，比如回归问题的正则化参数，有必要指定一个连续分布而不是可能值的列表，这样RandomizeSearchCV就可以执行更好的grid search。

scikit-learn网格搜索来进行高效的参数调优的更多相关文章

支持向量机(SVM)利用网格搜索和交叉验证进行参数选择
上一回有个读者问我:回归模型与分类模型的区别在哪?有什么不同,我在这里给他回答一下 : : : : 回归问题通常是用来预测一个值,如预测房价.未来的天气情况等等,例如一个产品的实际价格为500元,通过 ...
[Elasticsearch] 多字段搜索 (二) - 最佳字段查询及其调优
最佳字段(Best Fields) 假设我们有一个让用户搜索博客文章的网站,就像这两份文档一样: PUT /my_index/my_type/1 { "title": " ...
[Elasticsearch] 多字段搜索 (二) - 最佳字段查询及其调优（转）
最佳字段(Best Fields) 假设我们有一个让用户搜索博客文章的网站,就像这两份文档一样: PUT /my_index/my_type/1 { "title": " ...
[Elasticsearch2.x] 多字段搜索 (二) - 最佳字段查询及其调优 <译>
最佳字段(Best Fields) 假设我们有一个让用户搜索博客文章的网站,就像这两份文档一样: PUT /my_index/my_type/ { "title": "Q ...
(原创)（四）机器学习笔记之Scikit Learn的Logistic回归初探
目录 5.3 使用LogisticRegressionCV进行正则化的 Logistic Regression 参数调优一.Scikit Learn中有关logistics回归函数的介绍 1. 交叉 ...
调参必备---GridSearch网格搜索
什么是Grid Search 网格搜索? Grid Search:一种调参手段:穷举搜索:在所有候选的参数选择中,通过循环遍历,尝试每一种可能性,表现最好的参数就是最终的结果.其原理就像是在数组里找最 ...
Sklearn-GridSearchCV网格搜索
GridSearchCV,它存在的意义就是自动调参,只要把参数输进去,就能给出最优化的结果和参数.但是这个方法适合于小数据集,一旦数据的量级上去了,很难得出结果.这个时候就是需要动脑筋了.数据量比较大 ...
Python机器学习笔记 Grid SearchCV（网格搜索）
在机器学习模型中,需要人工选择的参数称为超参数.比如随机森林中决策树的个数,人工神经网络模型中隐藏层层数和每层的节点个数,正则项中常数大小等等,他们都需要事先指定.超参数选择不恰当,就会出现欠拟合或者 ...
Python之网格搜索与检查验证-5.2
一.网格搜索,在我们不确定超参数的时候,需要通过不断验证超参数,来确定最优的参数值.这个过程就是在不断,搜索最优的参数值,这个过程也就称为网格搜索. 二.检查验证,将准备好的训练数据进行平均拆分,分为 ...

随机推荐

Redis（九）哨兵：Redis Sentinel
Redis的主从复制模式下,一旦主节点由于故障不能提供服务,需要人工将从节点晋升为主节点,同时还要通知应用方更新主节点地址,对于很多应用场景这种故障处理的方式是无法接受的. Redis从2.8开始正式 ...
video2
<!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <title> ...
通过Value获取Map中的键值Key的四种方法
1 简介我们都知道Map是存放键值对<Key,Value>的容器,知道了Key值,使用方法Map.get(key)能快速获取Value值.然而,有的时候我们需要反过来获取,知道Value ...
Java面试官最爱问的volatile关键字
在Java的面试当中,面试官最爱问的就是volatile关键字相关的问题.经过多次面试之后,你是否思考过,为什么他们那么爱问volatile关键字相关的问题?而对于你,如果作为面试官,是否也会考虑采用 ...
JNI技术实现--Java调C/C++
废话不多说,首先我们来看Java调用C/C++步骤: 1.编写Java代码,在代码中使用native关键字标明该方法是调用本地库,不需要实现. 2.使用javah -jni 命令,生成对应的头文件,此 ...
Kali Linux——迈向网络攻防
自从进入大三的课程后,在已学的高数.线代.数论.概率论.信息论.通信等知识的技术上,开始了网络信息安全.网络攻防的学习.俗话说得好,磨刀不误砍柴工,开始网络攻防之旅也势必要一个好的工具.然 ...
【aliyun】学java，看这里，不迷茫！1460道Java热门问题
阿里极客公益活动: 或许你挑灯夜战只为一道难题或许你百思不解只求一个答案或许你绞尽脑汁只因一种未知那么他们来了,阿里系技术专家来云栖问答为你解答技术难题了他们用户自己手中的技术来帮助用户成长 ...
Excel的IYQ钓鱼
0x00 环境准备 1.操作系统:windows7 2.microsoft office版本:office 2010 0x01 了解IYQ的基本概念可以将IYQ简单的理解成内置在excel中的一种特 ...
闯缸鱼：看懂python如何实现整数加和，再决定是否自学编程
玩鱼缸的新手都知道有一种鱼叫"闯缸鱼",皮实好养,帮助新手判断鱼缸环境是否准备好.这篇笔记,最初用来解答一个编程新手的疑问,后来我发现,整理一下也可当做有兴趣自学python 编程 ...
Spring Boot实战之定制URL匹配规则
本文首发于个人网站:Spring Boot实战之定制URL匹配规则构建web应用程序时,并不是所有的URL请求都遵循默认的规则.有时,我们希望RESTful URL匹配的时候包含定界符". ...