逻辑回归 vs 决策树 vs 支持向量机（II）

原文地址： Logistic Regression vs Decision Trees vs SVM: Part II

　　在这篇文章，我们将讨论如何在逻辑回归、决策树和SVM之间做出最佳选择。其实第一篇文章已经给出了很好的回答，不过在这里再补充一些。下面将继续深入讨论这个主题。事实上，这三个算法在其设计之初就赋予了一定的内部特性，我们将其分析透彻的主要目的在于：当你面临商业问题时，这些算法的特性可以让你在选择这些算法时得到一些灵感。

　　首先，我们来分析下逻辑回归（Logistic Regression）,它是解决工业规模问题最流行的算法，尽管与其他技术相比，其在效率和算法实现的易用性方面并不出众。

　　逻辑回归非常便利并且很有用的一点就是，它输出的结果并不是一个离散值或者确切的类别。相反，你得到的是一个与每个观测样本相关的概率列表。你可以使用不同的标准和常用的性能指标来分析这个概率分数，并得到一个阈值，然后使用最符合你业务问题的方式进行分类输出。在金融行业，这种技术普遍应用于记分卡中，对于同一个模型，你可以调整你的阈值【临界值】来得到不同的分类结果。很少有其它算法使用这种分数作为直接结果。相反，它们的输出是严谨的直接分类结果。同时，逻辑回归在时间和内存需求上相当高效。它可以应用于分布式数据，并且还有在线算法实现，用较少的资源处理大型数据。

　　除此之外，逻辑回归算法对于数据中小噪声的鲁棒性很好，并且不会受到轻微的多重共线性的特别影响。严重的多重共线性则可以使用逻辑回归结合L2正则化来解决，不过如果要得到一个简约模型，L2正则化并不是最好的选择，因为它建立的模型涵盖了全部的特征。

　　当你的特征数目很大并且还丢失了大部分数据时，逻辑回归就会表现得力不从心。同时，太多的类别变量对逻辑回归来说也是一个问题。逻辑回归的另一个争议点是它使用整个数据来得到它的概率分数。虽然这并不是一个问题，但是当你尝试画一条分离曲线的时候，逻辑回归可能会认为那些位于分数两端“明显的”数据点不应该被关注。有些人可能认为，在理想情况下，逻辑回归应该依赖这些边界点。同时，如果某些特征是非线性的，那么你必须依靠转换，然而当你特征空间的维数增加时，这也会变成另一个难题。所以，对于逻辑回归，我们根据讨论的内容总结了一些突出的优点和缺点。

逻辑回归的优点：

便利的观测样本概率分数；
已有工具的高效实现；
对逻辑回归而言，多重共线性并不是问题，它可以结合L2正则化来解决；
逻辑回归广泛的应用于工业问题上（这一点很重要）。

逻辑回归的缺点：

当特征空间很大时，逻辑回归的性能不是很好；
不能很好地处理大量多类特征或变量；
对于非线性特征，需要进行转换；
依赖于全部的数据（个人觉得这并不是一个很严重的缺点）。

　　下面让我们来讨论下决策树和支持向量机。

　　决策树固有的特性是它对单向变换或非线性特征并不关心[这不同于预测器当中的非线性相关性>，因为它们简单地在特征空间中插入矩形[或是（超）长方体]，这些形状可以适应任何单调变换。当决策树被设计用来处理预测器的离散数据或是类别时，任何数量的分类变量对决策树来说都不是真正的问题。使用决策树训练得到的模型相当直观，在业务上也非常容易解释。决策树并不是以概率分数作为直接结果，但是你可以使用类概率反过来分配给终端节点。这也就让我们看到了与决策树相关的最大问题，即它们属于高度偏见型模型。你可以在训练集上构建决策树模型，而且其在训练集上的结果可能优于其它算法，但你的测试集最终会证明它是一个差的预测器。你必须对树进行剪枝，同时结合交叉验证才能得到一个没有过拟合的决策树模型。

　　随机森林在很大程度上克服了过拟合这一缺陷，其本身并没有什么特别之处，但它却是决策树一个非常优秀的扩展。随机森林同时也剥夺了商业规则的易解释性，因为现在你有上千棵这样的树，而且它们使用的多数投票规则会使得模型变得更加复杂。同时，决策树变量之间也存在相互作用，如果你的大多数变量之间没有相互作用关系或者非常弱，那么会使得结果非常低效。此外，这种设计也使得它们更不易受多重共线性的影响。

　　决策树总结如下：

决策树的优点：

直观的决策规则
可以处理非线性特征
考虑了变量之间的相互作用

决策树的缺点：

训练集上的效果高度优于测试集，即过拟合[随机森林克服了此缺点]
没有将排名分数作为直接结果

现在来讨论下支持向量机（SVM, Support Vector Machine）。支持向量机的特点是它依靠边界样本来建立需要的分离曲线。正如我们之间看到的那样，它可以处理非线性决策边界。对边界的依赖，也使得它们有能力处理缺失数据中“明显的”样本实例。支持向量机能够处理大的特征空间，也因此成为文本分析中最受欢迎的算法之一，由于文本数据几乎总是产生大量的特征，所以在这种情况下逻辑回归并不是一个非常好的选择。

对于一个行外人来说，SVM的结果并不像决策树那样直观。同时使用非线性核，使得支持向量机在大型数据上的训练非常耗时。总之：

SVM的优点：

能够处理大型特征空间
能够处理非线性特征之间的相互作用
无需依赖整个数据

SVM的缺点：

当观测样本很多时，效率并不是很高
有时候很难找到一个合适的核函数

为此，我试着编写一个简单的工作流，决定应该何时选择这三种算法，流程如下：

首当其冲应该选择的就是逻辑回归，如果它的效果不怎么样，那么可以将它的结果作为基准来参考；
然后试试决策树（随机森林）是否可以大幅度提升模型性能。即使你并没有把它当做最终模型，你也可以使用随机森林来移除噪声变量；
如果特征的数量和观测样本特别多，那么当资源和时间充足时，使用SVM不失为一种选择。

　　最后，大家请记住，在任何时候好的数据总要胜过任何一个算法。时常思考下，看看是否可以使用你的领域知识来设计一个好的特征。在使用创建的特征做实验时，可以尝试下各种不同的想法。此外，你还可以尝试下多种模型的组合。这些我们将在下回讨论，所以，整装待发吧！

逻辑回归 vs 决策树 vs 支持向量机（II）的更多相关文章

逻辑回归 vs 决策树 vs 支持向量机（I）
原文链接:http://www.edvancer.in/logistic-regression-vs-decision-trees-vs-svm-part1/ 分类问题是我们在各个行业的商业业务中遇到 ...
xss 多分类优选贝叶斯、逻辑回归、决策树
import re import numpy as np from sklearn import cross_validation from sklearn import datasets from ...
pyspark 逻辑回归程序
http://www.qqcourse.com/forum.php?mod=viewthread&tid=3688 [很重要]:http://spark.apache.org/docs/lat ...
pyspark dataframe 格式数据输入做逻辑回归
该方法好处是可以调节阈值,可调参数比其他形式模型多很多. [参照]http://blog.csdn.net/u013719780/article/details/52277616 [3种模型效果比较: ...
一小部分机器学习算法小结: 优化算法、逻辑回归、支持向量机、决策树、集成算法、Word2Vec等
优化算法先导知识:泰勒公式 \[ f(x)=\sum_{n=0}^{\infty}\frac{f^{(n)}(x_0)}{n!}(x-x_0)^n \] 一阶泰勒展开: \[ f(x)\approx ...
逻辑回归（LR）和支持向量机（SVM）的区别和联系
1. 前言在机器学习的分类问题领域中,有两个平分秋色的算法,就是逻辑回归和支持向量机,这两个算法个有千秋,在不同的问题中有不同的表现效果,下面我们就对它们的区别和联系做一个简单的总结. 2. LR和 ...
逻辑斯蒂回归VS决策树VS随机森林
LR 与SVM 不同 1.logistic regression适合需要得到一个分类概率的场景,SVM则没有分类概率 2.LR其实同样可以使用kernel,但是LR没有support vector在计 ...
逻辑回归&线性支持向量机
代码: # -*- coding: utf-8 -*- """ Created on Tue Jul 17 10:13:20 2018 @author: zhen &qu ...
[吴恩达机器学习笔记]12支持向量机1从逻辑回归到SVM/SVM的损失函数
12.支持向量机觉得有用的话,欢迎一起讨论相互学习~Follow Me 参考资料斯坦福大学 2014 机器学习教程中文笔记 by 黄海广 12.1 SVM损失函数从逻辑回归到支持向量机为了描述 ...

随机推荐

基于WebGL架构的3D可视化平台—新风系统演示
新风系统是根据在密闭的室内一侧用专用设备向室内送新风,再从另一侧由专用设备向室外排出,在室内会形成“新风流动场”,从而满足室内新风换气的需要.实施方案是:采用高风压.大流量风机.依靠机械强力由一侧向室 ...
Failed to introspect annotated methods on class 异常
用@enable时出现错误 Failed to introspect annotated methods on class 很可能是库和springboot版本不一致
python 推导式
推导式又称解析式,是Python的一种独有特性.目的是可以从一个数据序列推导出另一个数据序列,适用于python 的list ,dict 和集合 list中的推导式: _list=[i for i i ...
html入门第一天（知识总结）。
一文本标签:----------双标签.<b>标签 <strong>标签,文本呈现粗体(Html5中建议用strong,strong语义更强)<i>标签 <e ...
java表达式中运算符优先级
运算符优先级:运算符*和/(以及%)的优先级高于+和-(优先级越高,越早运算) 在逻辑运算符中,!拥有最高优先级,之后是&&,接下来是||. 一般来说,相同优先级的运算符的运算顺序是从 ...
Ganglia监控扩展实现机制
Ganglia监控扩展实现机制默认安装完成的Ganglia仅向我们提供基础的系统监控信息,通过Ganglia插件可以实现两种扩展Ganglia监控功能的方法.1.添加带内(in-band)插件,主要 ...
Cocos2dx开发之运行与渲染流程分析
学习Cocos2dx,我们都知道程序是由 AppDelegate 的方法 applicationDidFinishLaunching 开始,在其中做些必要的初始化,并创建运行第一个 CCScene 即 ...
Struts2各个功能详解（2）-输入校验和拦截器
前面知道了struts2的架构图和struts2的自动封装表单参数和数据类型自动转换,今天来学struts2的第三第四个东西,输入校验和拦截器. 一:输入校验客户端校验进行基本校验,如检验非空字段 ...
Swift Realm 完整使用记录
新项目用到了数据库,本来之前用的都是 SQL,但是语法写的实在是恶心,所以使用 Realm 尝试一下. 1.我使用的 pod 库,所以先 pod 库安装一下,安装完别忘了先编译一下,不然 import ...
sliding window："Marginalization"，"Schur complement"，"First estimate jacobin"
[1]知行合一2 SLAM中的marginalization 和 Schur complement SLAM的Bundle Adjustment上,随着时间的推移,路标特征点(landmark)和相机 ...

逻辑回归 vs 决策树 vs 支持向量机（II）

逻辑回归 vs 决策树 vs 支持向量机（II）的更多相关文章

随机推荐

热门专题