scikit_learn逻辑回归类库

1.概述

　　在scikit-learn中，与逻辑回归有关的主要有3个类。LogisticRegression, LogisticRegressionCV 和 logistic_regression_path。其中LogisticRegression 和 LogisticRegressionCV的主要区别是LogisticRegressionCV使用了交叉验证来选择正则化系数C。而LogisticRegression需要自己每次指定一个正则化系数。除了交叉验证，以及选择正则化系数C以外，LogisticRegression 和 LogisticsRegressionCV的使用方法基本相同。

　　logistic_regression_path类则比较特殊，它拟合数据后，不能直接来做预测，只能为拟合数据选择合适逻辑回归的系数和正则化系数。主要是用在模型选择的时候，一般情况用不到这个类，所以后面不再讲述logistic_regression_path类。

　　此外，scikit-learn里面有个容易让人误解的类RandomizedLogisticRegression，虽然名字里有逻辑回归的词，但是主要是用L1正则化的逻辑回归来做特征选择的，属于维度规约的算法类，不属于常说的分类算法范畴。

　　后面主要说LogisticRegression 和 LogisticRegressionCV中的参数，这些参数在两个类中意义一样。

2.正则化选择参数：penalty

　　LogisticRegression 和 LogisticsRegressionCV 默认带了正则化项。penalty参数可以选择的值为“l1”和“l2”，分别对应L1的正则化和L2的正则化，默认是L2的正则化。

　　在调参时如果我们主要的目的只是为了解决过拟合，一般penalty选择L2正则化就够了。但是如果算则L2正则化发现还是过拟合，即预测效果差的时候就考虑L1正则化。另外，如果模型的特征非常多，我们希望一些不重要的特征系数归0，从而让模型系数系数化的话，也可以使用L1正则化。

　　penalty参数的选择会影响我们损失函数优化算法的选择。即参数solver的选择，如果是L2正则化，那么4种可选的算法{‘newton-cg’, 'lbfgs', 'liblinear', 'sag'}都可以选择。但是如果penalty是L1正则化的话，就只能选择'liblinear'了。这是因为L1正则化的损失函数不是连续可导的，而{'newton-cg', 'lbfgs', 'sag'}这三种优化算法时都需要损失函数的一阶或者二阶连续可导。而'liblinear'并没有这个依赖。

3.优化算法选择参数：sovler

　　solver参数决定了我们对逻辑回归损失函数的优化方法，有4中，分别为：

　　liblinear：使用了开源的liblinear库实现，内部使用了坐标下降法来迭代优化损失函数。
　　lbfgs：拟牛顿法的一种，利用损失函数二阶导数矩阵即海森矩阵来迭代优化损失函数。
　　newton-cg：也是牛顿法家族的一种，利用损失函数二阶导数矩阵即海森矩阵来迭代优化损失函数。
　　sag：即随机平均梯度下降，是梯度下降法的变种，和普通梯度下降法的区别是每次迭代仅仅用一部分的样本来计算梯度，适合于样本数据多的时候。

　　从上面的描述可以看出，newton-cg， lbfgs 和 sag这三种优化算法时都需要损失函数的一阶或者二阶连续导数，因此不能用于没有连续导数的L1正则化，只能用于L2正则化。而liblinear通吃L1正则化和L2正则化。

　　同时，sag每次仅仅使用了部分样本进行梯度迭代，所以当样本量少的时候不要选择它，而如果样本量非常大，比如大于10万，sag是第一选择。但是sag不能用于L1正则化，所以当你有大量的样本，又需要L1正则化的话就要自己作取舍。要么通过对样本采样来降低样本量，要么回到L2正则化。

　　从上面的描述，大家可能觉得，既然newton-cg, lbfgs, sag 这么多限制，如果不是大样本，我们选择 liblinear 不就行了嘛！错，因为liblinear也有自己的弱点！我们知道，逻辑回归有二元逻辑回归和多元逻辑回归。对于多元逻辑回归常见的有 one-vs-rest(OvR) 和 many-vs-many(MvM) 两种。而MvM一般比OvR分类相对准确一些。郁闷的是liblinear只支持 OvR，不支持MvM，这样如果我们需要相对精确的多元逻辑回归时，就不要选择liblinear了。也意味着如果我们需要相对精确的多元逻辑回归不能使用L1正则化。

4.分类方式选择参数：multi_class

　　multi_class参数决定了我们分类方式的选择，有ovr和multinomial两个值可以选择，默认是ovr。

　　ovr即前面提到的one-vs-rest(OvR)，而multinomial即前面提到的many-vs-many(MvM)。如果是二元逻辑回归，ovr和multinomial并没有任何区别，区别主要在多元逻辑回归上。

　　ovr的思想很简单，无论你是多少元逻辑回归，我们都可以看做二元逻辑回归。具体做法是，对于第K类的分类决策，我们把所有第K类的样本作为正例，除了第K类样本以外的所有样本都作为负例，然后在上面做二元逻辑回归，得到第K类的分类模型。其他类的分类模型获得以此类推。

　　而MvM则相对复杂，这里举MvM的特例one-vs-one(OvO)作讲解。如果模型有T类，我们每次在所有的T类样本里面选择两类样本出来，不妨记为T1类和T2类，把所有的输出为T1和T2的样本放在一起，把T1作为正例，进行二元逻辑回归，得到模型参数。我们一共需要T(T-1)/2分类。

　　从上面的描述可以看出ovr相对简单，但分类效果相对略差（这里大多数样本分布情况，某些样本分布下ovr可能更好）。而MvM分类相对精确，但是分类速度没有ovr快。

　　如果选择ovr，则4种损失函数的优化方法liblinear, newton-cg, lbfgs, sag都可以选择。但是如果选择了multinomial, 则只能选择newton-cg, lbfgs, sag了。

5.类型权重参数：class_weight

　　class_weight参数用于标示分类模型中各种类型的权重，可以不输入，既不考虑权重，或者说所有类型的权重一样。如果选择输入的话，可以选择balanced让类库自己计算类型权重，或者我们自己输入各个类型的权重，比如对于0，1的二元模型，我们可以定义class_weight={0:0.9, 1:0.1}，这样类型0的权重为90%，而类型1的权重为10%。

　　如果class_weight选择balanced，那么类库会根据训练样本来计算权重。某种类型样本量越多，则权重越低，样本量越少，则权重越高。

　　那么class_weight有什么作用？在分类模型中，我们经常会遇到两类问题：

　　第一种是误差分类代价很高。比如对合法用户和非法用户进行分类，将非法用户分类为合法用户的代价很高，我们宁愿将合法分类为非法用户，这时可以人工再甄别，但是却不愿将非法用户分类为合法用户。这时，我们可以适当提高非法用户的权重。

　　第二种是样本高度失衡的，比如我们有合法用户和非法用户的二元样本数据10000条，里面合法用户9995条，非法用户只有5条，如果我们不考虑权重，则我们可以将所有的测试集都预测为合法用户，这样预测准确率理论上有99.95%，但是去没有任何意义。这时，我们选择balanced，让类库自动提高非法用户样本权重。

　　提高了某种分类的权重，相比不考虑权重，会有更多的样本分类划分到高权重的类别，从而解决了上面两类为题。

　　当然，对于第二种样本失衡的情况，我们还可以考虑用样本权重参数：sample_weight，而不使用class_weight。

6.样本权重参数：sample_weight

　　上一节我们提到了样本不失衡的问题，由于样本不平衡，导致样本不是总体样本的无偏估计，从而可能导致我们的模型预测能力下降。遇到这种情况，我们可以通过调节样本权重来尝试解决这个问题。调节样本权重的方法有两种，第一种是在class_weight使用balanced。第二种是在调用fit函数时，通过sample_weight来自己调节每个样本权重。

　　在scikit_learn做逻辑回归时，如果上面两种方法都用到了，那么样本的真正权值是class_weight*sample_weight。

　　以上就是scikit_learn中逻辑回归类库调参的一个小结，还有些参数比如正则化参数C（交叉验证就是Cs），迭代次数max_iter等，由于和其他的算法类库并没有特别不同，这里不多介绍。

scikit_learn逻辑回归类库的更多相关文章

scikit-learn 逻辑回归类库使用小结
之前在逻辑回归原理小结这篇文章中,对逻辑回归的原理做了小结.这里接着对scikit-learn中逻辑回归类库的我的使用经验做一个总结.重点讲述调参中要注意的事项. 1. 概述在scikit-lear ...
Sklearn实现逻辑回归
方法与参数 LogisticRegression类的各项参数的含义 class sklearn.linear_model.LogisticRegression(penalty='l2', dual=F ...
逻辑回归（Logistic Regression）算法小结
一.逻辑回归简述: 回顾线性回归算法,对于给定的一些n维特征(x1,x2,x3,......xn),我们想通过对这些特征进行加权求和汇总的方法来描绘出事物的最终运算结果.从而衍生出我们线性回归的计算公 ...
通俗地说逻辑回归【Logistic regression】算法（二）sklearn逻辑回归实战
前情提要: 通俗地说逻辑回归[Logistic regression]算法(一) 逻辑回归模型原理介绍上一篇主要介绍了逻辑回归中,相对理论化的知识,这次主要是对上篇做一点点补充,以及介绍sklear ...
sklearn逻辑回归(Logistic Regression,LR)调参指南
python信用评分卡建模(附代码,博主录制) https://study.163.com/course/introduction.htm?courseId=1005214003&utm_ca ...
sklearn逻辑回归(Logistic Regression)类库总结
class sklearn.linear_model.LogisticRegression(penalty=’l2’, dual=False, tol=0.0001, C=1.0, fit_inter ...
随机逻辑回归random logistic regression-特征筛选
python信用评分卡(附代码,博主录制) https://study.163.com/course/introduction.htm?courseId=1005214003&utm_camp ...
逻辑回归原理_挑战者飞船事故和乳腺癌案例_Python和R_信用评分卡（AAA推荐）
sklearn实战-乳腺癌细胞数据挖掘(博客主亲自录制视频教程) https://study.163.com/course/introduction.htm?courseId=1005269003&a ...
逻辑回归2-scikit-learn参数介绍
1.1 scikit-learn参数介绍 1.1.1 导入 from sklearn.linear_model import LogisticRegression 1.1.2 版本 sci ...

随机推荐

数据库 SQL 优化大总结之：百万级数据库优化方案
网上关于SQL优化的教程很多,但是比较杂乱.近日有空整理了一下,写出来跟大家分享一下,其中有错误和不足的地方,还请大家纠正补充. 这篇文章我花费了大量的时间查找资料.修改.排版,希望大家阅读之后,感觉 ...
使用My97DatePicker设置日期的属性示例
<td>交易日期:</td> <td colspan="3"> <input class="Wdate" id=&qu ...
js 实现几分钟前、几小时前、几天前，以及几分钟后、几小时后、几天前后
js 实现几分钟前.几小时前.几天前,以及几分钟后.几小时后.几天前后 /* * * 把传入的时间戳与当前时间比较,计算几分钟前.几小时前.几天前,以及几分钟后.几小时后.几天前后 * unixtim ...
oracle merge同时包含增、删、改
原来一直没注意,merge是可以支持delete,只不过必须的是on条件满足,也就是要求系统支持逻辑删除,而非物理删除. Using the DELETE Clause with MERGE Stat ...
使用Excel批量给数据添加单引号和逗号
表格制作过程如下: A2表格暂时为空,模板建立完成以后,用来放置原始数据: 在B2表格内输入公式: ="'"&A2&"'"&" ...
20145308 《网络对抗》Web安全基础实践学习总结
20145308 <网络对抗> Web安全基础实践学习总结实验内容本实践的目标理解常用网络攻击技术的基本原理.Webgoat实践下相关实验. 基础问题回答 (1)SQL注入攻击原理, ...
解决vi删除键和方向键奇怪的问题
sudo vi /etc/vim/vimrc.tiny 把改为
POJ 1679 The Unique MST 【判断最小生成树是否唯一】
Description Given a connected undirected graph, tell if its minimum spanning tree is unique. Defini ...
如何安装整个linux系统中所需要的mp3播放库插件? 可以在安装rpmfusion仓库后直接通过dnf install进行按照就可以了
在vi的界面中, 前面的数字, 表示一行. 而对于中文而言, 并不一定是"一个文本行"就是一行, 而是以回车(硬回车)为标志, 来判定一行的. 而dd, yy等也是以" ...
Git 配置命令设置
目录查看配置文件路径: 查看其他配置命令: 修改配置文件默认路径: 查看配置文件路径: 查看系统级别配置: git config -e –-system D:/Program Files/Git/m ...

scikit_learn逻辑回归类库

scikit_learn逻辑回归类库的更多相关文章

随机推荐

热门专题