Netflix工程总监眼中的分类算法：深度学习优先级最低

摘要：不同分类算法的优势是什么？Netflix公司工程总监Xavier Amatriain根据奥卡姆剃刀原理依次推荐了逻辑回归、SVM、决策树集成和深度学习，并谈了他的不同认识。他并不推荐深度学习为通用的分类技术。

【编者按】针对Quora上的一个老问题：不同分类算法的优势是什么？Netflix公司工程总监Xavier Amatriain近日给出新的解答，他根据奥卡姆剃刀原理依次推荐了逻辑回归、SVM、决策树集成和深度学习，并谈了他的不同认识。他并不推荐深度学习为通用的方法，这也侧面呼应了我们之前讨论的问题：深度学习能否取代其他机器学习算法。

不同分类算法的优势是什么？例如有大量的训练数据集，上万的实例，超过10万的特征，我们选择哪种分类算法最好？Netflix公司工程总监Xavier Amatriain认为，应当根据奥卡姆剃刀原理（Occam's Razor）来选择算法，建议先考虑逻辑回归。

选择一个合理的算法可以从很多方面来考察，包括：

训练实例的数量？
特征空间的维度？
是否希望该问题线性可分？
特征是否是独立的？
是否预期特征能够线性扩展？
过度拟合是否会成为一个问题？
系统在速度/性能/内存使用等方面的要求如何？
……

这个看起来有点吓人的列表并没有直接回答问题，但我们可以按照奥卡姆剃刀原则解决这个问题：用能够满足需求的最简单的算法，如果绝对的必要，不要增加复杂性。

逻辑回归

作为一般的经验法则，我建议先考虑逻辑回归（LR，Logistic Regression）。逻辑回归是一个漂亮乖巧的分类算法，可以训练你希望的特征大致线性和问题线性可分。你可以很容易地做一些特征引擎把大部分的非线性特征转换为线性。逻辑回归对噪声也相当强劲，能避免过度拟合，甚至使用L2或L1正则化做特征选择。逻辑回归也可以用在大数据场景，因为它是相当有效的，并且可以分布使用，例如ADMM。逻辑回归的最后一个优点是，输出可以被解释为概率。这是一个好的附加作用，例如，你可以使用它排名而不是分类。

即使在你不希望逻辑回归100%地工作，你也可以帮自己一个忙，在使用“票友”办法之前，运行一个简单的L2正则化逻辑回归作为基线。

好了，现在你已经设置逻辑回归基线，下一步你应该做的，我基本上会推荐两个可能的方向：支持向量机（SVM）或者决策树集成。如果我不知道你的具体问题，我肯定会选择后者，但我将开始描述为什么SVM可能是一个值得考虑的方法。

支持向量机

支持向量机使用一个与LR不同的损失函数（Hinge）。它们也有不同的解释（maximum-margin）。然而，在实践中，用线性核函数的SVM和逻辑回归是没有很大的不同的（如果你有兴趣，你可以观察Andrew Ng在他的Coursera机器学习课程如何从逻辑回归中驱动SVM）。用SVM代替逻辑回归的一个主要原因可能是因为你的问题线性不可分。在这种情况下，你将不得不使用有非线性内核的SVM（如RBF）。事实上，逻辑回归也可以伴随不同的内核使用，但出于实际原因你更可能选择SVM。另一个使用SVM的相关理由可能是高维空间。例如，SVM已经被报道在工作文本分类方面做得更出色。

不幸的是，SVM的主要缺点是，它们的训练低效到痛苦。所以，对于有大量训练样本的任何问题，我都不会推荐SVM。更进一步地说，我不会为大多数“工业规模”的应用程序推荐SVM。任何超出玩具/实验室的问题可能会使用其他的算法来更好地解决。

决策树集成

第三个算法家族：决策树集成（Tree Ensembles）。这基本上涵盖了两个不同的算法：随机森林（RF）和梯度提升决策树（GBDT）。它们之间的差异随后再谈，现在先把它们当做一个整体和逻辑回归比较。

决策树集成有超过LR的不同优势。一个主要优势是，它们并不指望线性特征，甚至是交互线性特性。在LR里我没有提到的是，它几乎不能处理分类（二进制）特性。而决策树集成因为仅仅是一堆决策树的结合，可以非常好地处理这个问题。另一主要优点是，因为它们构造了（使用bagging或boosting）的算法，能很好地处理高维空间以及大量的训练实例。

至于RF和GBDT之间的差别，可以简单理解为GBDT的性能通常会更好，但它们更难保证正确。更具体而言，GBDT有更多的超参数需要调整，并且也更容易出现过度拟合。RF几乎可以“开箱即用”，这是它们非常受欢迎的一个原因。

深度学习

最后但并非最不重要，没有深度学习的次要参考，这个答案将是不完整的。我绝对不会推荐这种方法作为通用的分类技术。但是，你可能会听说这些方法在某些情况下（如图像分类）表现如何。如果你已经通过了前面的步骤并且感觉你的解决方案还有优化的空间，你可能尝试使用深度学习方法。事实是，如果你使用一个开源工具（如Theano）实现，你会知道如何使这些方法在你的数据集中非常快地执行。

总结

综上所述，先用如逻辑回归一样简单的方法设定一个基准，如果你需要，再使问题变得更加复杂。这一点上，决策树集成可能正是要走的正确道路，特别是随机森林，它们很容易调整。如果你觉得还有改进的余地，尝试GBDT，或者更炫一些，选择深度学习。

你还可以看看Kaggle比赛。如果你搜索关键字“分类”，选择那些已经完成的，你能找到一些类似的东西，这样你可能会知道选择一个什么样的方法来赢得比赛。在这一点上，你可能会意识到，使用集成方法总容易把事情做好。当然集成的唯一问题，是需要保持所有独立的方法并行地工作。这可能是你的最后一步，花哨的一步。

编辑点评：Xavier Amatriain不推荐深度学习为通用算法的理由，并不能说是因为深度学习不好，而是因为深度学习会增加复杂性及成本，却无法保证在所有的场景表现出比逻辑回归、SVM及决策树集成更优的结果。事实上，Xavier Amatriain的Netflix团队早已开始研究人工神经网络和深度学习技术，希望借助AWS云服务和GPU加速的分布式神经网络，分析网民最爱看的电影电视剧，实现节目的个性化推荐。

Netflix推荐系统架构（图片来自Xavier Amatrain参与撰写的Netflix官方博客）

此后，Xavier Amatriain还分享了Netflix机器学习实践的十大经验教训，大致包括：

更多的数据需要与更好的模型之匹配
你可能不需要所有的大数据
更复杂的模型未必意味着更好的结果，可能是你的样本集太简单
要充分考虑你的训练数据
学会处理偏差
UI是联系算法和最重要的用户之间唯一通道
正确的演进方式比数据和模型更重要
分布式算法重要，知道在哪个层级使用它更重要
选择合适的度量自动超参数优化
并非所有的事都能离线完成，近线处理也是一种选择

原文链接：What are the advantages of different classification algorithms?（翻译/王玮编辑/周建丁）

Netflix工程总监眼中的分类算法：深度学习优先级最低的更多相关文章

用深度学习（CNN RNN Attention）解决大规模文本分类问题 - 综述和实践
https://zhuanlan.zhihu.com/p/25928551 近来在同时做一个应用深度学习解决淘宝商品的类目预测问题的项目,恰好硕士毕业时论文题目便是文本分类问题,趁此机会总结下文本分类 ...
[转] 用深度学习（CNN RNN Attention）解决大规模文本分类问题 - 综述和实践
转自知乎上看到的一篇很棒的文章:用深度学习(CNN RNN Attention)解决大规模文本分类问题 - 综述和实践近来在同时做一个应用深度学习解决淘宝商品的类目预测问题的项目,恰好硕士毕业时论文 ...
【Todo】【转载】深度学习&神经网络科普及八卦学习笔记 & GPU & SIMD
上一篇文章提到了数据挖掘.机器学习.深度学习的区别:http://www.cnblogs.com/charlesblc/p/6159355.html 深度学习具体的内容可以看这里: 参考了这篇文章:h ...
机器学习(Machine Learning)&深度学习(Deep Learning)资料【转】
转自:机器学习(Machine Learning)&深度学习(Deep Learning)资料 <Brief History of Machine Learning> 介绍:这是一 ...
AI - 深度学习之美十四章-概念摘要（1~7）
原文链接:https://yq.aliyun.com/topic/111 本文是对原文内容中部分概念的摘取记录,可能有轻微改动,但不影响原文表达. 01 - 一入侯门"深"似海,深 ...
深度学习之概述(Overview)
2016年被称为人工智能的元年,2017年是人能智能应用的元年:深度学习技术和应用取得飞速发展:深度学习在互联网教育场景也得到广泛应用.本文主要介绍机器学习及深度学习之定义及基本概念.相关网络结构等. ...
Recorder︱深度学习小数据集表现、优化（Active Learning）、标注集网络获取
一.深度学习在小数据集的表现深度学习在小数据集情况下获得好效果,可以从两个角度去解决: 1.降低偏差,图像平移等操作 2.降低方差,dropout.随机梯度下降先来看看深度学习在小数据集上表现的具 ...
机器学习(Machine Learning)&深度学习(Deep Learning)资料汇总（上）
转载:http://dataunion.org/8463.html?utm_source=tuicool&utm_medium=referral <Brief History of Ma ...
机器学习(Machine Learning)&深度学习(Deep Learning)资料(下）
转载:http://www.jianshu.com/p/b73b6953e849 该资源的github地址:Qix <Statistical foundations of machine lea ...

随机推荐

动态规划入门——Eddy's research II
转载请注明出处:http://blog.csdn.net/a1dark 分析:找规律 #include<stdio.h> int main(){ int m,n; while(scanf( ...
.h头文件 .lib库文件 .dll动态库文件之间的关系
.h头文件是编译时必须的,lib是链接时需要的,dll是运行时需要的. 附加依赖项的是.lib不是.dll,若生成了DLL,则肯定也生成 LIB文件.如果要完成源代码的编译和链接,有头文件和lib就够 ...
JAVA对象之生
https://yq.aliyun.com/users/1556056716932876?spm=5176.100239.blogrightarea55811.3.6cvyJd
WPF自定义窗体仿新毒霸关闭特效（只能在自定义窗体中正常使用）
比较简单的一个小功能,和新毒霸类似的效果. 效果代码: bool closeStoryBoardCompleted = false; DoubleAnimation closeAnimation1; ...
xhEditor与Java结合使用
xhEditor是一个轻量级的html编辑器,使用它可以非常方便的编辑图文内容,然而官方文档中只有php的演示,没有Java版的,最近两天参考网上各种各样的文档,琢磨了一下用法,现已可以正常运行,现在 ...
linux下安装memcached过程
前一次已经安装过memcached,没有做记录,太久没有操作了也没有记录有点生疏,做一下笔记,已背后用. 下载文件下载memcached服务端, ...
MyBatis返回主键，MyBatis Insert操作返回主键
MyBatis返回主键,MyBatis Insert操作返回主键 >>>>>>>>>>>>>>>>> ...
Access获取新插入数据的自增长主键Id
sqlserver有output,Oracle有Sequence.Access用下面的方法: public int InsertEx(User user) { ; using (OleDbConnec ...
PHP获取用户访问IP地址的5种方法
IP地址获得的五种方法: <?php //方法1: $ip = $_SERVER["REMOTE_ADDR"]; echo $ip; //方法2: $user_IP = ($ ...
<script runat=server>、<%%>和<%#%>的区别
①<script runat="server">代码段与<%%>内联代码段的区别在asp.net页面的aspx文件中允许使用<script runa ...

Netflix工程总监眼中的分类算法：深度学习优先级最低

Netflix工程总监眼中的分类算法：深度学习优先级最低

Netflix工程总监眼中的分类算法：深度学习优先级最低的更多相关文章

随机推荐

热门专题