从Clarifai的估值聊聊深度学习

[转载请注明出处]

前几天和 Ayden @叶瀚中聊天时，提到了 www.clarifai.com 这家公司。

此前，我已经从各方消息中听说过创始人Matt Zeiler最近打算卖公司。甚至还和朋友打赌说这个公司能不能以$5M出手。

先说结论：

这个公司的水准在13年称得上世界第一。但是这并不能给该公司以世界级的价值。

Clarifai创始人Matt Zeiler 是 New York University (NYU) Rob Fergus教授门下的学生。要知道，从上个世纪开始，NYU就一直是neural computation的重镇。现在Deep net的前身ConvNet，就是出自 NYU 的 Yann LeCun教授组。
Matt在PhD期间，还曾经在Google跟Jeff Dean实习过。不知道有没有学到什么独门绝技。总之，2013年Image Net Challenge以来，他在Computer vision圈子就非常出名了。

讲到这里就不得不提Image Net Challenge。以前的Computer vision的数据集都非常小，最多不过几百类，几万张图，这带来一个问题——我们无法设计特别复杂的计算视觉模型。否则模型的复杂度太高，数据量太少，就会有 Overfitting 的问题。

2012年，华人教授李菲菲牵头搞了一个巨大的数据库 ImageNet。到今天为止，Image Net上已经有了14,197,122张图片了。对每张图片，由人来手工记录图片中物体的名字，并向业界宣布，同学们，如果你们谁开发出来了新的物体识别算法，就在我家的数据库上试试吧。

于是2012年，就有了这个LSVRC - Large Scale Visual Recognition Challenge. 最终比赛结果在2012年底的NIPS会议上公布。

当时，大多数的研究小组还都在用传统computer vision算法的时候，多伦多大学的Hinton祭出deep net这样一个大杀器。差距是这样的：
第一名Deepnet的错误率是0.16422
第二名日本东京大学的错误率是0.2617
第三名牛津大学的错误率是0.2679

如果我们仔细看看第二名和第三名的实现，会发现大家使用的技术框架非常接近，都是local descriptor + feature compression这套。而在这套实现上，二者的差距几乎是可以忽略的——都完全不是deep net的对手。
具体结果参见：ImageNet Large Scale Visual Recognition Competition 2012 (ILSVRC2012)

说来也巧，我恰好也参加了NIPS 12，亲身感受了这在后来看来的历史时刻。Hinton当时放话说：“如果你没有参加前面十几年的NIPS，没关系，因为直到今年，Deep net才真正work了”。虽然deepnet取得了如此瞩目的成绩，但是就在当时，还是有大量与会教授表示不愿意接受deepnet。这里面指的“不愿意”分几个层次
1. Deepnet很可能是某种形式的overfitting，因为它里面有6000万个参数。
2. Deepnet作为一个黑盒子，不可解释。所以对cv的贡献非常有限
3. Deepnet只能解决物体识别这一个问题，而物体检测、分割等经典问题还需要其他人的努力。

在1%的性能提升都可以称之为“major contribution”的时代，被一个和最近10年computer vision，尤其是object recognition领域的进展几乎没有交集的方法，超过了10个百分点，这也难怪大家纷纷表示不承认也不接受deepnet的革命。但是，洪水的闸门已经打开。。。

一年后，新一轮的Large Scale Visual Recognition Challenge又开始了，这时候我们不难发现，Deep net的计算框架已经一统江湖了：
ImageNet Large Scale Visual Recognition Competition 2013 (ILSVRC2013)

其中Matt Zeiler (Clarifai.com) 的算法排名第一，在不用额外训练数据的情况下，跑到了error rate 0.1174这样的成绩。
这个成绩是这样解读的：
任选一张图片，扔给算法，算法返回5个结果。如果5个结果中，有一个猜对了物体类别，就算正确。换言之，如果允许猜5次，Clarifai已经有接近90%的准确率了。这里的物体类别包括了英语中两万多个名词，几乎涵盖了各大类别。

但是，2013年和2012年的情况又有很大不同。

排名第二的新加坡国立大学的误差，是0.129，第三名ZF的误差是0.133，这都与Clarifai非常接近。再也无法出现Hinton组独步江湖的场面了。

今年的结果还没出来，要等到12月份的NIPS 2014啦。我听到过一些小道消息，在LSVRC 12的训练集（因为测试集保密，所以线下研究的时候，大家都会辟出一部分训练集做测试），某公司已经能跑到10%以内的误差了。当然Clarifai也没闲着，在他主页上已经更新了准确率到10.7%了。

那么Deepnet的难点在什么地方呢？从最近CVPR 14的情况来看，圈子在这个方面作出的改进，几乎见不到什么质的飞跃。调整deepnet在大多数时候变成了一门实验科学：一方面，对2012年原作的修改太大，会导致识别率惨不忍睹，另一方面，很少有人能有Stefan Mallat那样的数学功底能从理论层面分析deep learning到底在干什么。但是，由于图片的数据量实在太大，站在工程角度上，如何能够在几周甚至几天内完成几百万甚至上千万图片的训练，就是一个非常非常技术的活儿了。

在工程实现方面，deepnet开山paper的一作Alex Krizhevsky已经开源了他的代码https://code.google.com/p/cuda-convnet/ ，并且又另起了一个convnet2的项目https://code.google.com/p/cuda-convnet2/。

必须提到的，是UC-Berkeley Trevor Darrel的贾扬清，把他写的deepnet开源了。https://github.com/BVLC/caffe 这个功能很全面，性能很高的deep net，不断被大量的开发者完善。目前来看，它是最有希望成为deep net通用架构的一个基础框架。目前，基于Caffe的识别误差，已经降到0.131了——非常接近Matt Zeiler的结果。但是要注意，这些结果几乎都是开源的。

换言之，一群有过几年cv经验的初创小团队，基本都可以超过Hinton 2012年的世界纪录，与2013年Matt Zeiler的纪录非常接近。这简直让我想起战争之王检阅娃娃兵的片段：一个本科生训练出来的deepnet，和一个有30年经验的大学教授训练出来的deepnet，其实并没有区别。

有这么个传说，真假待考，权当八卦说说吧。当年Hinton组在NIPS 12会场上，就被各家公司争相竞购。Hinton带着Google/MS/Baidu等公司的负责人，找了间屋子说我们团队竞拍，每次加价一百万。后来嫌一百万太慢，改加价两百万。再后来的故事，大家就都知道了。。。

但是Clarifai.com的估价和Hinton组被收购的故事又有所不同。一方面，Hinton本人是当今世界上最杰出（哪怕是2012年deepnet火爆之前）的machine learning研究者，20多年前back propagation也是他的杰作，而且deepnet的正宗首创效应也不可忽视。另一方面，deepnet席卷整个cv圈子带来的各种效应（比如开源），可能也是大家所始料不及的。

最后，一方面，我希望Clarifai.com能被收购，引起更多对cv的关注。另一方面也希望学术圈能尽快找准方向，尽早结束实验报告为主的探索期，能够真正从本质上解释这个伟大的理论究竟为什么work。

从Clarifai的估值聊聊深度学习的更多相关文章

AI：深度学习用于文本处理
同本文一起发布的另外一篇文章中,提到了 BlueDot 公司,这个公司致力于利用人工智能保护全球人民免受传染病的侵害,在本次疫情还没有引起强烈关注时,就提前一周发出预警,一周的时间,多么宝贵! 他们的 ...
【Todo】【转载】深度学习&神经网络科普及八卦学习笔记 & GPU & SIMD
上一篇文章提到了数据挖掘.机器学习.深度学习的区别:http://www.cnblogs.com/charlesblc/p/6159355.html 深度学习具体的内容可以看这里: 参考了这篇文章:h ...
为什么要用深度学习来做个性化推荐 CTR 预估
欢迎大家前往腾讯云技术社区,获取更多腾讯海量技术实践干货哦~ 作者:苏博览深度学习应该这一两年计算机圈子里最热的一个词了.基于深度学习,工程师们在图像,语音,NLP等领域都取得了令人振奋的进展.而深 ...
深度学习入门篇--手把手教你用 TensorFlow 训练模型
欢迎大家前往腾讯云技术社区,获取更多腾讯海量技术实践干货哦~ 作者:付越导语 Tensorflow在更新1.0版本之后多了很多新功能,其中放出了很多用tf框架写的深度网络结构(https://git ...
NLP+VS︱深度学习数据集标注工具、方法摘录，欢迎补充~~
~~因为不太会使用opencv.matlab工具,所以在找一些比较简单的工具. . . 一.NLP标注工具BRAT BRAT是一个基于web的文本标注工具,主要用于对文本的结构化标注,用BRAT生成的 ...
【腾讯Bugly干货分享】人人都可以做深度学习应用：入门篇
导语 2016年,继虚拟现实(VR)之后,人工智能(AI)的概念全面进入大众的视野.谷歌,微软,IBM等科技巨头纷纷重点布局,AI 貌似将成为互联网的下一个风口. 很多开发同学,对人工智能非常感兴趣, ...
学习笔记TF045:人工智能、深度学习、TensorFlow、比赛、公司
人工智能,用计算机实现人类智能.机器通过大量训练数据训练,程序不断自我学习.修正训练模型.模型本质,一堆参数,描述业务特点.机器学习和深度学习(结合深度神经网络). 传统计算机器下棋,贪婪算法,Alp ...
关于深度学习中的batch_size
5.4.1 关于深度学习中的batch_size 举个例子: 例如,假设您有1050个训练样本,并且您希望设置batch_size等于100.该算法从训练数据集中获取前100个样本(从第1到第100个 ...
深度学习之PyTorch实战（3）——实战手写数字识别
上一节,我们已经学会了基于PyTorch深度学习框架高效,快捷的搭建一个神经网络,并对模型进行训练和对参数进行优化的方法,接下来让我们牛刀小试,基于PyTorch框架使用神经网络来解决一个关于手写数字 ...

随机推荐

我的第二篇--nginx安装问题之路径问题
这几天还是一直在搭建nginx,并且要在nginx的基础之上配置naxsi(WAF防火墙)并使它生效,但是随之而来的问题也会有很多,也许因为我是个新手,所以遇到的问题要多,不解的问题也要很多,不知道又 ...
Java8的新特性
Java 8主要新特性包括如下几点: 一.接口的默认方法和静态方法 Java 8版之前,接口只有抽象方法,而在Java 8,为接口新增了两种类型的方法. 第一种是默认方法:在Java 8中,可 ...
lex/flex 笔记
Lex的匹配策略: 1. 按最长匹配原则确定被选中的单词 2. 如果一个字符串能被若干正规式匹配,则先匹配排在前面的正规式. lex源程序的写法:Lex源程序必须按照Lex语言的规范来写,其核心是一组 ...
Rabbit MQ安装配置及常见问题
Window安装 1:RabbitMQ安装 1.1:安装Erlang:http://www.erlang.org/ 1.2:安装RabbitMQ:http://www.rabbitmq.com/dow ...
jquery数据验证插件（自制，简单，练手）
一:最近项目中js数据验证比较多,为了统一风格,移植复用,于是顺手封装了Jquery的插件. (function($) { var defaults = { bugColor: '#FFCCCC', ...
关于H5+css3的一些简单知识
最近在一个群里看到,有人在探讨H5,也看到自己关注的大神使用过H5的画布(canvas),于是心血来潮,看了点教程,也算对的起自己吧. 一.H5的新特性: 1.用于绘画的canvas元素 2.用于媒介 ...
dagger和butterknife使用冲突
两者会冲突的主要原因是因为两者都有:javax.annotation.processing.Processor 于是在build.gradle中添加如下配置即可: // 注释冲突 packagingO ...
SQLSERVER2012用户登录error40
昨天晚上公司停电了,电脑非正常关闭,今早回来之后,用sa登录sqlserver,一直报error40这个错,以前没碰到过,所以很紧张,问东问西,在网上也搜了好多,也跟着配置了好多,都不行,快被逼疯的时 ...
selenium2.0处理case实例（二）
本文通过具体代码处理过程, 来展示selenium中一些比较不常用的类的用法 1.javascriptExcutor,通过将driver强转成JavascriptExecutor类型, 调用execu ...
iBeacon 开发笔记
iBeacon开发笔记 2015.10.19 airlocate ========= airlocate显示如何使用这个监控范围clbeaconregions. 代码还提供了一个例子,你如何能校准和配 ...

从Clarifai的估值聊聊深度学习

从Clarifai的估值聊聊深度学习

从Clarifai的估值聊聊深度学习的更多相关文章

随机推荐

热门专题