逻辑回归 vs 决策树 vs 支持向量机（I）

原文链接：http://www.edvancer.in/logistic-regression-vs-decision-trees-vs-svm-part1/

　　分类问题是我们在各个行业的商业业务中遇到的主要问题之一。在本文中，我们将从众多技术中挑选出三种主要技术展开讨论，逻辑回归（Logistic Regression）、决策树（Decision Trees）和支持向量机（Support Vector Machine，SVM）。

　　上面列出的算法都是用来解决分类问题（SVM和DT也被用于回归，但这不在我们的讨论范围之内）。我多次看到有人提问，对于他的问题应该选择哪一种方法。经典的也是最正确的回答是“看情况而定！”，这样的回答却不能让提问者满意。确实让人很费神。因此，我决定谈一谈究竟是看什么情况而定。

　　这个解释是基于非常简化的二维问题，但足以借此来理解读者棘手的更高维度数据。

　　我将从最重要的问题开始讨论：在分类问题中我们究竟要做什么？显然，我们是要做分类。（这是个严肃的问题？真的吗？）我再来复述一遍吧。为了做分类，我们试图寻找决策边界线或是一条曲线（不必是直线），在特征空间里区分两个类别。

　　特征空间这个词听起来非常高大上，容易让很多新人犯迷糊。我给你展示一个例子来解释吧。我有一个样本，它包含三个变量：x1, x2和target。target有0和1两种值，取决于预测变量x1和x2的值。我将数据绘制在坐标轴上。

　　这就是特征空间，观测值分布于其中。这里因为我们只有两个预测变量/特征，所有特征空间是二维的。你会发现两个类别的样本用不同颜色的点做了标记。我希望我们的算法能计算出一条直线/曲线来分离这个类别。

　　通过目测可知，理想的决策边界（分割曲线）是一个圆。实际决策边界形状的差异则是由于逻辑回归、决策树和支持向量机算法的差异引起的。

　　先说逻辑回归。很多人对逻辑回归的决策边界都有误解。这种误解是由于大多数时候提到逻辑回归，人们就见到那条著名的S型曲线。

　　上图所示的蓝色曲线并不是决策边界。它是逻辑回归模型的二元响应的一种变形。逻辑回归的决策边界总是一条直线（或者一个平面，在更高维度上是超平面）。让你信服的最好方法，就是展示出大家都熟知的逻辑回归方程式。

我们做一个简单的假设，F是所有预测变量的线性组合。

上面的等式也可以写作：

　　当你进行预测的时候，对概率值做一个分数截断，高于截断值的概率为1，否则为0。假设截断值用c表示，那么决策过程就变成了这样：

　　Y=1 if p>c, 否则0。最后给出的决策边界是F>常数。

　　F>常数，无非就是一个线性决策边界。我们样本数据用逻辑回归得到的结果将会是这样。

　　你会发现效果并不好。因为无论你怎么做，逻辑回归方法得到的决策边界总是线性的，并不能得到这里需要的环状边界。因此，逻辑回归适用于处理接近线性可分的分类问题。（虽然可以对变量做变换得到线性可分的结果，但我们在此不讨论这类情况。）

　　接着我们来看决策树如何处理这类问题。我们都知道决策树是按照层次结构的规则生成的。以我们的数据为例。

　　如果你仔细思考，这些决策规则x2 |</>| const OR x1 |</>| const 只是用平行于轴线的直线将特征空间切分，如下图所示。

我们可以通过增加树的大小使它生长得更复杂，用越来越多的分区来模拟环状边界。

　　哈哈！趋向于环状了，很不错。如果你继续增加树的尺寸，你会注意到决策边界会不断地用平行线围成一个环状区域。因此，如果边界是非线性的，并且能通过不断将特征空间切分为矩形来模拟，那么决策树是比逻辑回归更好的选择。

　　然后我们再来看看SVM的结果。SVM通过把你的特征空间映射到核空间，使得各个类别线性可分。这个过程更简单的解释就是SVM给特征空间又额外增加了一个维度，使得类别线性可分。这个决策边界映射回原特征空间后得到的是非线性决策边界。下图比我的解释更清楚。

　　你可以看到，一旦样本数据以某种方式增加了一个维度，我们就能用一个平面来分割数据（线性分类器），这个平面映射回原来的二维特征空间，就能得到一个环状的决策边界。

SVM在我们数据集上的效果多棒啊：

注：决策边界并不是这么标准的圆形，但是非常接近了（可能是多边形）。我们为了操作简便，就用圆环代替了。

　　现在清楚各种区别了吧，但是还有一个问题。也就是说，在处理多维数据时，什么时候该选择何种算法？这个问题很重要，因为若是数据维度大于三，你就找不到简单的方法来可视化地呈现数据。我们将在第二部分讨论这么问题，敬请关注。

逻辑回归 vs 决策树 vs 支持向量机（I）的更多相关文章

逻辑回归 vs 决策树 vs 支持向量机（II）
原文地址: Logistic Regression vs Decision Trees vs SVM: Part II 在这篇文章,我们将讨论如何在逻辑回归.决策树和SVM之间做出最佳选择.其实第一 ...
xss 多分类优选贝叶斯、逻辑回归、决策树
import re import numpy as np from sklearn import cross_validation from sklearn import datasets from ...
pyspark 逻辑回归程序
http://www.qqcourse.com/forum.php?mod=viewthread&tid=3688 [很重要]:http://spark.apache.org/docs/lat ...
pyspark dataframe 格式数据输入做逻辑回归
该方法好处是可以调节阈值,可调参数比其他形式模型多很多. [参照]http://blog.csdn.net/u013719780/article/details/52277616 [3种模型效果比较: ...
一小部分机器学习算法小结: 优化算法、逻辑回归、支持向量机、决策树、集成算法、Word2Vec等
优化算法先导知识:泰勒公式 \[ f(x)=\sum_{n=0}^{\infty}\frac{f^{(n)}(x_0)}{n!}(x-x_0)^n \] 一阶泰勒展开: \[ f(x)\approx ...
逻辑回归（LR）和支持向量机（SVM）的区别和联系
1. 前言在机器学习的分类问题领域中,有两个平分秋色的算法,就是逻辑回归和支持向量机,这两个算法个有千秋,在不同的问题中有不同的表现效果,下面我们就对它们的区别和联系做一个简单的总结. 2. LR和 ...
逻辑斯蒂回归VS决策树VS随机森林
LR 与SVM 不同 1.logistic regression适合需要得到一个分类概率的场景,SVM则没有分类概率 2.LR其实同样可以使用kernel,但是LR没有support vector在计 ...
逻辑回归&线性支持向量机
代码: # -*- coding: utf-8 -*- """ Created on Tue Jul 17 10:13:20 2018 @author: zhen &qu ...
[吴恩达机器学习笔记]12支持向量机1从逻辑回归到SVM/SVM的损失函数
12.支持向量机觉得有用的话,欢迎一起讨论相互学习~Follow Me 参考资料斯坦福大学 2014 机器学习教程中文笔记 by 黄海广 12.1 SVM损失函数从逻辑回归到支持向量机为了描述 ...

随机推荐

maven的pom.xml文件详解
<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/20 ...
“AS3.0高级动画编程”学习：第一章高级碰撞检测
AdvancED ActionScript 3.0 Animation 是Keith Peters大师继"Make Things Move"之后的又一力作,网上已经有中文翻译版本了 ...
重写COMBOXEDIT
一.需求 C#种的下拉框ComboBox不支持下拉复选框列表与下拉树形列表等,系统中需要用到的地方使用了第三方组件,现在需要将第三方组件替换掉. 二.设计基本思路:重写ComboBox,将原生的下拉 ...
windows内核驱动内存管理之Lookaside使用
Windows内存管理中使用了类似于容器的东西,叫做Lookaside对象,每次程序员申请内存都会从Lookaside里面申请,只有不足的时候,Lookaside才会向内存又一次申请内存空间,这样减少 ...
java第一章抽象和封装
面向过程和面向对象有什么区别? 面向过程的核心是函数,以功能为中心,实现了函数级别的代码重用. 面向对象的核心是封装了属性和方法(行为)的类,以数据为中心,实现了类级别的代码重用. 面向对象因为采用了 ...
LoadRunner 11.00安装篇(Win 10)
参考博文: https://blog.csdn.net/xianjie0318/article/details/78625980 https://www.cnblogs.com/VseYoung/p/ ...
js/jquery遇到的坑总结
1.“removeAttribute is not a function” error message 原因以及解决方法:removeAttribute is a JavaScript DOM fun ...
vue自定义滚动条
参照element-ui的el-scroll自己实现了一个自定义组件,代码如下: <template> <div class="c-scroll-box" ref ...
分析easyswoole3.0源码，Trace组件（四）
前文,我们访问地址的时候服务端会输出类似trace信息.那么原理是什么呢?其实es3已经把这个独立出来作为单独组件了,名字叫做Trace组件在demo里的调用原理是 EasySwooleEvent: ...
textarea下高度自适应
1,背景:textarea的高度不会随内容的增加而自适应,会出现滚动条解决方案: 1)使用div模拟textarea 使用h5的属性 <div contenteditable=&quo ...

逻辑回归 vs 决策树 vs 支持向量机（I）

逻辑回归 vs 决策树 vs 支持向量机（I）的更多相关文章

随机推荐

热门专题