旷视6号员工范浩强:高二开始实习,“兼职”读姚班,25岁在CVPR斩获第四个世界第一...
初来乍到,这个人说话容易让人觉得“狂”。
“我们将比赛结果提交上去,果不其然,是第一名的成绩。”当他说出这句话的时候,表情没有一丝波澜,仿佛一切顺理成章。
他说的是AI顶会CVPR上的一项挑战赛结果,全球巨头都有参与,AI高手均同场竞技,第一名并不容易。
但如果你知道“他”叫范浩强。
一切就非常稀疏平常。
谁是范浩强?
当初那个奥赛金牌、保送清华姚班、高二加入旷视成为6号员工的天才少年,人称小强,一度是AI界的江湖传说。
曾经,他是国际信息学奥赛(IOI)金牌获奖者,保送清华姚班,高二便受唐文斌邀请加入旷视创业,在半工半读的情况下保持姚班第一名的成绩,在大一军训时期就完成了一篇ICCV论文,一个让清华特奖得主陈立杰都感到智商被碾压的男人。
而如今,他已经是旷视研究院带领70人团队的算法总监了,带着一群平均年龄比自己大得多的研究员们,在图像算法、团队培养、商业化等各方面披荆斩棘,达成突破,研究领域涵盖人脸与指纹安全,移动端影像算法,AI计算摄影。
巨大光环之下,范浩强倒毫无自视甚高之意,打趣的说自己“本科毕业,两年工作经验,在贵司也就这样吧”。
正如清华计算机系常被称作“贵系”,这里的“贵司”当然也是指的旷视。
靠商用算法拿到学术界冠军
在范浩强的带领下,今年的CVPR NTIRE真实图像降噪挑战赛,旷视以绝对优势的运行时间和最终结果拿到了Raw-RGB组的冠军。
“图像降噪其实也是一件挺神奇的事情。” 介绍起这个被称作“超画质”的技术,范浩强如同在描述一件压箱底的宝贝。
这个技术,能够将手机拍到的充满噪点的图片:
变成和人眼看上去的效果一致,完美无瑕的样子:
而这个在学术界刚刚拿到冠军的降噪算法,范浩强团队从去年春天开始,做到去年10月完成,目前在产业界已经实现产品化,并开始商用,旷视多家客户都在自家的手机上用到了这个算法。
相比之下,拿到冠军反而是顺便的事。
范浩强说:“我们的工作当然也是基于学术界已有的基础,目前我们取得了新的进展,自然也要回馈给研究社区,以便能够让技术进一步向前发展。”
手机图像降噪算法是范浩强近几年最为得意的成果,而在此之前的本科时期,他已经在人脸识别、人脸检测方向带领团队为旷视拿下三个顶会级比赛的世界第一了。
在寝室里改变世界
回想起刚刚加入旷视的2012年,人脸识别在业界还是“不靠谱的事”,不少业界名人都认为,人脸识别这件事不可能靠机器自动完成,必须依赖人类的眼睛才能实现。
但还是个高二学生的范浩强却觉得,只有做“不靠谱的事”,才有意思,才有发展的空间。他就是怀着这样的心态,成了旷视第一个“Rer”(Researcher,算法研究员)。
就这样,人脸识别这件“不靠谱”的事情一做就是七年。
高中毕业之后,范浩强进入了清华天才辈出的姚期智班,开始了他的大学生涯。
在姚班的学习状态,范浩强自己说是“part time student, full time intern”,兼职读本科,全职实习生,一半时间在学习,一半时间在工作,就这样,还在四年间保持姚班第一的成绩。
而他的第一篇顶会论文,正是在大一军训期间完成的,从没写过论文的他一次投稿后,收到了这样的评价:
It is a shame that such a good method is not backed by a solid paper.
你方法这么好,文章写得这个德性,是一种耻辱。
然而最后,论文还是被ICCV接收。足以见得,在2013年,用神经网络做人脸识别是相当稀缺的东西。
也正是因为这篇论文,旷视拿下了ICCV 2013 300 Faces in-the-Wild Challenge人脸关键点定位的冠军,这也是旷视获得第一个技术评测世界冠军。
随后的2014年,又是大丰收的一年。范浩强先是为旷视拿下世界权威人脸检测公开评测集FDDB(Face Detection Dataset and Benchmark)人脸检测赛项的第一名。
之后,又拿下了互联网图像人脸识别竞赛LFW(Labeled Faces in the Wild)的第一名。
这项冠军来的并不容易,创业早期的旷视条件艰苦,在研究人脸识别的时候,连GPU集群都没有,范浩强独自一人在学校寝室,在从外部云服务租来的集群上训练,终于拿下了LFW(Labeled Faces in the Wild)竞赛的第一名。
正在他春风得意的时候,印奇发来一封邮件,强烈要求“不要在寝室里改变世界了,下周一务必来公司一趟”。
一年内两个冠军,加上2013年的ICCV,三个世界第一,让旷视在计算机视觉领域一举成名,原本“不靠谱”的人脸识别,也逐渐成为现实,应用在了各类机构、场景,以及千万人的手机上。
“信仰流”leader
除了研究成果不断夺冠,在范浩强读本科的这几年,旷视也处于高速发展阶段,各种产品都开始在行业内大放异彩,也成功自研了深度学习框架Brain++。
而在资本层面,范浩强在清华读书期间,旷视也不断受到创新工场、蚂蚁金服、启明创投等多家机构的青睐,迅速从A轮发展到C轮(如今已到D轮),成为行业领军的独角兽。
正是在这样飞速发展的背景之下,范浩强没有和大多数姚班同学那样继续深造,而是直接追随人脸识别浪潮,成为了旷视全职员工。
对范浩强本人来说,从实习高中生,到全职研究员,旷视也逐渐从初创公司走向行业独角兽。
“高中觉得这是个玩的东西,是个game;本科觉得是个job;毕业后觉得是个mission。在AI的商业化应用之路上,前方已经没有别人,现在轮到我们这群人来继续推动它的发展。”
而这期间,从参与旷视的建立,到完成人脸识别的一系列工作,拿下第一桶金,成为准备影响人类科技树的人,范浩强不仅拥有了“想做的事都能做成”的信心,更具备了一种使命感。
“连旷视这样的公司都被外界称作‘行业头部企业’,由此可见整个行业都需要继续被拯救。”范浩强无不戏谑地说。“以AI为代表的智能化技术将深刻的影响未来产业的格局,时代的浪潮已经把我们推到了这里,担子虽重,但是已经是到了想上也得上,不想上也得上的时候了。”
而听到范浩强这样一个毕业两年的年轻人讲述这些宏愿的时候,你会觉得他是这个时代的风云人物,有一种舍我其谁的英雄气概。不同于那个被多番吹捧少年天才,现在的他身上流露着一种历史使命感,配上插科打诨的脱口秀式表达,会觉得仿佛在会见一个影视剧里才有的形象丰满的人物。
也正是在他毕业后的这几年,旷视本身再度突破,由“Face++旷视”升级为“MEGVII旷视”,围绕核心AI技术原创深度学习框架Brain++,为个人设备大脑、城市大脑和供应链大脑三大核心应用场景赋能,推进人工智能及物联网技术与实体经济加速融合,实现前沿科技规模化商业落地。
在这样的发展进程下,生于1994年的范浩强已经是旷视这家明星公司旗下旷视研究院带70人团队的算法总监了。
这位旷视最年轻的总监,手下却尽是年龄比自己大的同事,范浩强想了想,才想起了一位实习生是年纪比自己小的。
并且因为“保送即创业”,范浩强虽然从没给自己写过求职简历,却经常需要看别人的简历,面试候选人。
甚至有一次,他还不得不帮一位比自己年长十岁的候选人解答一下“人生遇到焦虑该怎么办”。
在对团队的态度上,范浩强自称“信仰流”leader,给组员以自信,“使你相信你能做到”,和组员一起走下去。
“Leader分几种,有的是Manager,就是管你的,有些就是跟你一起走的,我成长中遇到的基本都是后者,包括孙剑在内。”
在组员们看来,他们或许觉得范浩强名声在外,是心目中的偶像;或许觉得是身边的好友,会夜里睡不着觉跑来聊天;或许觉得是一起成长的伙伴,可以一起相互帮助走下去。
而对组员们,范浩强希望能“至少以小强为baseline(基线)”,具有一个人能把一个方向的事情做好的能力。
给范浩强以希望的,是旷视研究院强大的研发力量:数百人的团队,85%来自国内Top10高校,70个以上的奥赛金牌,前途不可限量。
实践派研究者
至于范浩强自己在技术上的“秘诀”,恐怕要用他一直在提的一句话来概括,那就是:
Engineering is magic。
来源于马斯克的一条推特。
提及大一的landmark论文,范浩强总结的经验是:Engineering is magic。
“很多事情也没什么神奇的,就是你把所有环节都做对了,就做了一个别人之前没做到的事情。人脸识别发展至今有魔法么?没有任何魔法,现在翻出1990年的paper肯定能找出很多本质一样的东西出来,但就是在你做的过程中,各个环节里面都有一些应该做对的事情。”
手机图像降噪也一样。
“Engineering is magic,想出这些点并不难,关键是要真的一张一张去亲眼多看实验数据。”
而现在,范浩强对engineering有了更高的要求,更宏大的目标。
他说,目前自己的一块工作重心是实现算法生产的工业化体系,让数据、新算法、训练体系、测试、评估这几个部分高效有机的在一起运行,今天给需求,明天给模型,“这是我们的目标,这条路并不平坦,还在努力过程中。”
另外,则是要回答AI有什么用的终极问题,涉及业务方向、应用场景的选择,并进行商业化。
“在中国做商业化的AI其实是个崭新的命题,欧美很多做得很好的算法公司一做就能活20年,因为有着成熟完善的商业竞争环境和严格的知识产权制度,国内这方面就会差很多。要走中国特色商业化之路很难,但不妨碍我们把它做出来。现在我们做的工作是让商业化的环境变好,使得那些读完博再出来创业的同学有更好的环境。”
而engineering的能力,范浩强也希望能“迁移学习”到其他同学身上去,“旷视需要至少100个小强”。
而思考这些问题的,只是一位25岁的小哥哥,自带一种身为领袖人物的、与年龄不相符的责任感。
演脱口秀,吸别人的猫
除了工作的时候是个大神,范浩强的另一个人设则是段子手,自称“脱口秀演员里最会写代码的,码农里最会脱口秀的”。早年,旷视每一届年会范浩强都会上台表演脱口秀。
不过,常在河边走,总有会翻车的时候。有一年旷视人数暴增,台上的他愣是忘了词。
到了第二年年会,前来指导的专业演员看了之后,评价说:“看了你去年的录像,觉得很坚强。”
在专业演员的指导下,范浩强终于学会了如何镇得住过千人的大场面。
范浩强的另一个爱好则是猫。但因为害怕养死,他选择做一名“云吸猫”爱好者。
毕竟,范浩强自称“0~24点都可能在工作”,恐怕是没有时间铲屎的。
因此,他甚至连招聘都在想,可以优先招家里有猫的同学,这样可以方便的借机撸猫。
One More Thing
最后,范浩强给想要从事AI技术的年轻人一条忠告:
弄斧要去班门,做AI要去专业公司。
他曾经作为面试官向候选人提问如何完成一类产品,候选人反复论证,认为产品无法完成,因为需要的样本量太大。
但这类产品在旷视已经商业化了。有赖于旷视Data++的功劳,数据的标注和管理都不是问题。
“这个数量的样本,直接去Data++提需求啊”范浩强说,“当你没有见过一个以非常高的效率做AI的团队和公司体系的样子的时候,你是想象不到你能做到什么的。”
对于旷视而言,整个旷视研究院有多个像范浩强团队这样的研发大组,有众多集天分与努力于一身的技术人才,正是AI界的“班门”,最当“弄斧”于此。
而这一点,在任何领域都是适用的。
— 完 —
欢迎关注磐创博客资源汇总站:http://docs.panchuang.net/
欢迎关注PyTorch官方中文教程站:http://pytorch.panchuang.net/
旷视6号员工范浩强:高二开始实习,“兼职”读姚班,25岁在CVPR斩获第四个世界第一...的更多相关文章
- 范浩强treap——可持久化
当平衡树需要可持久化的时候,意味着我们需要访问以前的某个时间点的平衡树,就要保持以前的树形态不变,新建一个时间戳,构建一棵新的树. 如果用以前的旋转treap可能就不方便做到(又要打时间戳,又要新建节 ...
- 范浩强treap 普通平衡树
增加Split(分裂),Merge(合并)操作,非常好写,时间也不比普通treap慢什么. #include<bits/stdc++.h> using namespace std; str ...
- ECCV 2018 | 旷视科技提出GridFace:通过学习局部单应变换实现人脸校正
全球计算机视觉三大顶会之一 ECCV 2018(European Conference on Computer Vision)即将于 9 月 8 -14 日在德国慕尼黑拉开帷幕,旷视科技有多篇论文被此 ...
- 入职9月,旷视孙剑106分钟讲述CV创业科研的5大区别
雷锋网按:本文为旷视科技首席科学家孙剑日前在 CCF-ADL上做的题为<如何在大公司和创业公司做好计算机视觉研究>的分享,主要介绍了近期计算机视觉的发展现状,ResNet基本原理和设计,旷 ...
- 旷视等Oral论文提出GeoNet:基于测地距离的点云分析深度网络
基于网格曲面的几何拓扑信息可以为物体语义分析和几何建模提供较强的线索,但是,如此重要的连接性信息在点云中是缺失的.为此,旷视西雅图研究院首次提出一种全新的深度学习网络,称之为 GeoNet,可建模点云 ...
- 挂羊头卖狗肉蓄意欺骗读者——谭浩强《C程序设计(第四版)》中所谓的“按照C99”(二)
挂羊头卖狗肉蓄意欺骗读者——谭浩强<C程序设计(第四版)>中所谓的“按照C99”(二) 在<谭C>p4:“本书的叙述以C99标准为依据”,下面从C89到C99的主要变化方面来看 ...
- C语言学习笔记---谭浩强
前段时间有机会去面试了一次,真是备受“打击”(其实是启发),总的来说就是让我意识到了学习工具和学习技术的区别.所以最近在看一些数据结构和算法,操作系统,python中的并行编程与异步编程等东西.然而数 ...
- 旷视研究院Detection组负责人
http://www.skicyyu.org/ https://zhuanlan.zhihu.com/p/61910297 俞刚,旷视研究院Detection组负责人.2014年博士毕业于新加坡南洋理 ...
- 旷视科技 -- Face++ 世界最大的人脸识别技术平台
旷视科技 -- Face++ 世界最大的人脸识别技术平台: https://www.megvii.com/
随机推荐
- c++获取屏幕大小
API: 要取得屏幕大小,可以用下面几个函数: # include <windows.h>int cx = GetSystemMetrics( SM_CXFULLSCREEN ); int ...
- Web渗透基础小总结
Web渗透框架概述 主要组成: 1. web语言代码(脚本) 2. web程序 3. 数据库程序 Web语言常见几大类 1. HTML:超文本标记语言,标准通用编辑语言下的一个应用 2. PHP:超文 ...
- 7-43 jmu-python-字符串异常处理 (20 分)
输入一行字符串及下标,能取出相应字符.程序能对不合法数据做相应异常处理. 输入格式: 行1:输入一字符串 行2:输入字符下标 输出格式: 下标非数值异常,输出下标要整数 下标越界,输出下标越界 数据正 ...
- ThreadLocal源码探究 (JDK 1.8)
ThreadLocal类之前有了解过,看过一些文章,自以为对其理解得比较清楚了.偶然刷到了一道关于ThreadLocal内存泄漏的面试题,居然完全不知道是怎么回事,痛定思痛,发现了解问题的本质还是需要 ...
- 解决微信小程序视频组件层级过高的问题
本文首发于我的个人博客:http://www.fogcrane.org 前言 在微信小程序的开发中,总有一些"VIP"组件,他们的层级,高得让人抓狂,总是凌驾于很多其他低层级组件之 ...
- PxCook+photoshop实现傻瓜式切图(推荐小白使用)
确定需求 刚入门前端的小伙伴经过一个阶段的学习,已经准备小试牛刀了.但看到设计师给出的psd图,又头疼了,天啊撸,怎么办,我不会切图啊.今天我就带领小白学习傻瓜式切图.包学包会.( ̄▽ ̄)" ...
- CSS3:TEXT-SHADOW|BOX-SHADOW(炫彩字体)
2016年2月26日个人博客文章--迁移到segmentfault (1)text-shadow(文本阴影) 在介绍css3:text-shadow文本阴影之前,我们先来看看用它都能实现什么效果: 没 ...
- Win10系统下安装tensorflow(cpu)+keras+jupyter notebook运行环境
记录,自用 1.安装Anaconda(这里安装的是python3.6版本) 2.创建tensorflow的conda环境 conda create -n tensorflow python=3.6 3 ...
- 群ping
找出单位内所有电脑手机 通常情况下,ping只能ping一个IP地址.一个网络值班只有255台电脑,除非是大的网络断,把子网掩码改了,可以扩充更多电脑.如: 如果我们要一次性检查内网所有机器,则可以输 ...
- C++ 标准模板库(STL)-stack
主要介绍一下C++11版本中标准模板库中栈的用法,希望可以帮到需要用的人. #include <iostream> #include <stack> #include < ...