原文:

Computer Vision是AI的一个非常活跃的领域,每年大会小会不断,发表的文章数以千计(单是CVPR每年就录取300多,各种二流会议每年的文章更可谓不计其数),新模型新算法新应用层出不穷。可是,浮华背后,根基何在?

对于Vision,虽无大成,但涉猎数年,也有管窥之见。Vision所探索的是一个非常复杂的世界,对于这样的世界如何建模,如何分析,却一直没有受普遍承认的理论体系。大部分的研究工作,循守着几种模式:

  • 从上游学科(比如立体几何,机器学习,优化等等)获取现成方法,略加变化,套用于某一具体应用。
  • 对现有的某个模型方法的一些不足之处,加以改进,比如在formulation中加入或者简并参数,或者调整求解过程。
  • 选择多个方法组成一个应用系统。

这些工作实实在在解决了很多问题,功不可没。然其不足在于,一事一法,难成积淀。故此,每年新发表之工作,虽汗牛充栋,蔚为大观,就核心学理,与十年二十年前之状态相比,没有根本突破。

过去一年,在导师们的启发下,涉猎一些其它学科,方知学问之博大,自己以往却是一直坐井观天。在这里其实非常感谢Alan的启发,他一般没有很具体的指导,但是他往往会说“你可以看看某某领域,这个问题可能在几十年前已经被他们在另外一个context下面解决了。”刚开始的时候,我不是很服气——我在Vision的literature的survey表明它在vision里面确实是新问题——不过,当我看到那些领域的文章的时候,不得不佩服Alan的广博知识和对根本不同的领域中的相似问题的洞察力。

我不打算具体讨论一个topic,但是,我建议做vision的朋友在有时间的时候去看看一些表面应用完全不同,但是核心学理却是相通的领域。

  • 做Sampling, particle filtering的,不妨看看统计物理学(Statistical Physics),他们对于蒙特卡罗方法已经应用数十年,积累极深,很可能在vision或者learning提出的一些新方法,已经是被他们以另外一种形式或者名称提出过了。
  • 做Tracking, video, 和optimization的,可以看看控制论(Control theory)。控制科学对于动态系统(或者其它随时间变化的过程)的研究极为透彻。Alan本来是做控制的,正式他几次强烈的建议下,我才去看动态系统论和控制论,看过一些章节后有如醍醐灌顶。我曾经自己花了不少时间导出的一组矩阵微分方程的解,就是control theory里面已有深入探讨的Peano-Baker series在一定条件下的形式。至于做传导模型或者semi-supervised
    learning的,控制论中的许多观点和方法也是很有帮助的。
  • 做Graphical model,和各种统计模型的,信息论(information theory)是肯定必要的,这个不用我在这啰嗦了。有一门叫做信息几何学(information geometry),也值得一观。

比较之下方显差距。很多做Vision的朋友都是理论爱好者,喜欢在paper里面列举公式以彰显“理论深度”——可是,我看过的大部分的文章中的公式推演,一般都是循规蹈矩的推导,其水平未必胜于求解一道经典教科书中的数学习题。诚然,这种推理演绎是整个研究中不可缺少的部分,写在文章中也无可厚非,但是,如果仅此则把推演结果列为theoretical contribution,则不免为过了。真正意义的理论贡献者,不在文中公式多寡,也不在数学深浅,而在于是否能对问题的内在原理展开深入剖析,有所发现,言人之未尝言,给人以新的启发。

作为经典物理基础的牛顿三定律,从现在vision领域的眼光看来,不过是对实验的总结,所得结论,除了第二定律有一简单乘法公式(往高深处说,也不过是常系数线性二阶常微分方程)之外,并无太多数学深入其中。虽如此,经典物理的巍峨大厦由此奠定。也许这个例子类比Vision的研究,未必恰当,但是,它起码可以说明,理论贡献之义在于去芜存菁,也就是排开纷繁复杂的表象,发掘那个深刻但是简单的规律。可是,在vision paper宣称的理论贡献中,有多少循此义而行,又有多少在铅华净尽之后留传下来。

纵理论上根基不足,但Vision终究是应用学科,若能广泛应用则其意义必能发扬。虽然经过几十年努力,vision确实在社会生活中有了不少各种应用,不过比起其它学科则相形见拙。且不说诸如通信,软件工程之类早已在全球形成庞大产业,与vision有更多联系的video coding,signal processing, 和medical image,其应用之深广也为vision所望尘莫及。vision没能形成应有的工业应用,一则确实是它面临的实际问题困难重重,实用水平不易达到,二则与我们的研究在相当程度上脱离实际有着很大关联。

以我以往在香港学习时所做的face recognition来说,这是一个应用性很强的topic,历史也不短,但在实际条件下的识别水平,做这个的朋友也心里明白。很多人在研究这个topic,发表的“新方法”也不少,在paper上识别正确率不达到90%是拿不出手的——可是在那几个标准库(即使是最新的FRGC)上做出的性能和实际的有多大的差距?很多工作assume头像区域都对齐良好,光照条件规则,在此条件下研究出来的算法即使能达到100%的识别性能,在环境极为复杂的条件下能真的应用么?直到今天,大批文章仍在乐此不疲地讨论各种subspace,
kernel, svm, boosting的变化花样,却从不思考人脸识别的真正要素所在,难道不是舍本逐末之举。

与此同时,许多在实际工程实践中的trick,为性能提高立下汗马功劳,却因为没有“理论深度”,不登大雅之堂,即使见诸论文,也是在实验部分草略带过。然而,一个方法,无论其最初提出是否有理论依据,如果确实能解决问题,则必有其原因。若能静下心来,暂时忘记那些仅凭思辨就形成的所谓美妙理论,下功夫探究一些确实能解决问题的方法背后所原之学理,其意义不是更大么。也许每个这样的工作都很细小,真能积累下来,假以时日,在推动某个方面的应用上必有实实在在的进益。其中,也可能有机会总结出一些真正有价值的理论。

自诞生以来,Vision的发展已历数十年,不过和许多领域相比,仍处于初始阶段,根基尚显孱弱混乱。唯因如此,对身处其中的研究者,更具挑战意义,而每一个真正的贡献也显得特别有价值。治学之道,不在追逐潮流,而在深原其理。

后记: 前前后后把这篇文章读了很多遍,每次都很有感触。computer vision这个方向到底怎么样,前景如何,令人难以捉摸;作者在文中提到的一些学习方法很有借鉴价值。

不要把喜欢的工作当做自己的职业,除非你喜欢工作本身,否则日后,便连这种喜欢之情也会慢慢丢失掉.

Computer Vision的尴尬的更多相关文章

  1. Computer Vision的尴尬---by林达华

    Computer Vision的尴尬---by林达华 Computer Vision是AI的一个非常活跃的领域,每年大会小会不断,发表的文章数以千计(单是CVPR每年就录取300多,各种二流会议每年的 ...

  2. Computer vision labs

    积累记录一些视觉实验室,方便查找 1.  多伦多大学计算机科学系 2.  普林斯顿大学计算机视觉和机器人实验室 3.  牛津大学Torr Vision Group 4.  伯克利视觉和学习中心 Pro ...

  3. Computer Vision: OpenCV, Feature Tracking, and Beyond--From <<Make Things See>> by Greg

    In the 1960s, the legendary Stanford artificial intelligence pioneer, John McCarthy, famously gave a ...

  4. [转载]Three Trending Computer Vision Research Areas, 从CVPR看接下来几年的CV的发展趋势

    As I walked through the large poster-filled hall at CVPR 2013, I asked myself, “Quo vadis Computer V ...

  5. (转) WTF is computer vision?

        WTF is computer vision? Posted Nov 13, 2016 by Devin Coldewey, Contributor   Next Story   Someon ...

  6. Computer Vision 学习 -- 图像存储格式

    本文把自己理解的图像存储格式总结一下. 计算机中的数据,都是二进制的,所以图片也不例外. 这是opencv文档的描述,具体在代码里面,使用矩阵来进行存储. 类似下图是(BGR格式): 图片的最小单位是 ...

  7. Analyzing The Papers Behind Facebook's Computer Vision Approach

    Analyzing The Papers Behind Facebook's Computer Vision Approach Introduction You know that company c ...

  8. 计算机视觉和人工智能的状态:我们已经走得很远了 The state of Computer Vision and AI: we are really, really far away.

    The picture above is funny. But for me it is also one of those examples that make me sad about the o ...

  9. Computer Vision Applied to Super Resolution

    Capel, David, and Andrew Zisserman. "Computer vision applied to super resolution." Signal ...

随机推荐

  1. 【CF1173D】NanuuAndCircle

    题目链接:http://codeforces.com/contest/1173/problem/D 赛场上弱爆了的小菜鸡(本人),怎么也没想到这道看起来近似于神仙计数/生成函数的题正解竟然如此简洁. ...

  2. 在LINUX系统上通过LINUX命令安装mysql数据库和JDK环境

    此示例通过Winscp工具和Xshell已验证通过 安装示例1: 在Centos6.5上安装JDK-10.0.2版本 检查LINUX系统是否有自带或者安装过的JDK版本:Java -version 查 ...

  3. python项目开发:ftp server开发

    程序要求: 1.用户加密认证 (对用户名密码进行MD5验证)2.允许同时多用户登陆 (使用socket server方法,为每个用户都创建一个信息文件)3.每个用户有自己的家目录,且只能访问自己的家目 ...

  4. Bootstrap 表单控件一(单行输入框input,下拉选择框select ,文本域textarea)

    单行输入框,常见的文本输入框,也就是input的type属性值为text.在Bootstrap中使用input时也必须添加type类型,如果没有指定type类型,将无法得到正确的样式,因为Bootst ...

  5. 只允许一个 <configSections> 元素。它必须是根 <configuration> 元素的第一个子元素- HTTP Error 500.19

    这还是我第一次遇到这个错误,以前都没太注意配置文件中元素的放置顺序.这次在调试一个ASP.NET MVC项目的时候,突然就爆出HTTP Error 500.19错误,提示无法访问请求的页面,因为该页的 ...

  6. zuul 路由网关

    一.阐述 Zuul 包含了对请求的路由和过滤两个主要的功能: 路由功能:负责将外部请求转发到具体的微服务实例上,是实现外部访问统一入口的基础: 滤器功能:负责对请求的处理过程干预,是实现请求校验.服务 ...

  7. Something about 博弈(POJ 3922 A simple stone game)

    先是题目,本来是第三次训练的题,在这特别提出来讲. 先是题目: E - A simple stone game Time Limit:1000MS     Memory Limit:65536KB   ...

  8. 对Django框架中Cookie的简单理解

    概念的理解:首先Cookie和Session一样,是django中用于视图保持状态的方案之一.为什么要进行视图保留呢,这是因为浏览器在向服务器发出请求时,服务器不会像人一样,有记忆,服务器像鱼一样,在 ...

  9. logistic regression model

    logistic regression model LR softmax classification Fly logistic regression model loss fuction softm ...

  10. structs实现三种action的方法

    第一种:一般类,带有public String execute()方法. 另外一种:继承LoginActionInterface implements Action接口的类. 第三种:继承LoginA ...