上周,阿里巴巴高德地图首席科学家任小枫在#大咖学长云对话#的在线直播活动上就计算机视觉相关技术发展以及在地图出行领域的应用与大家做技术交流,直播间互动火爆,尤其在QA环节,学弟学妹们纷纷就感兴趣的视觉应用、AR导航、定位技术、5G、职业发展等话题提问,任小枫做了精彩回答。我们整理了问答内容,分享给大家。

视频回放地址

https://vku.youku.com/live/ilproom?id=8064786

任小枫博士,现任阿里巴巴高德地图首席科学家,研究员,主要负责视觉技术在地图和出行领域的应用和创新。加入阿里巴巴前,他在2013到2017年间供职于亚马逊,是亚马逊的资深主任科学家和AMAZON GO的算法负责人。浙江大学本科毕业,加州大学伯克利分校博士,华盛顿大学计算机系客座教授,CVPR/ICCV/AAAI等会议领域主席,IEEE PAMI副主编。

视觉技术发展及应用

提问:计算机视觉在高精度地图构建中的应用有哪些?

任小枫:视觉算法对于高精度地图构建是核心的技术,主要应用在资料对齐和精度保证、识别和地图数据自动化生成、视觉定位和高精地图更新等。

提问:您觉得现有的基础学科研究水平与硬件水平能否保证视觉技术的快速发展?视觉技术发展在近期会不会遇到较难突破的瓶颈?

任小枫:经过了前几年深度学习技术在视觉各个领域的快速发展,一定程度上说,深度学习和视觉的基础技术现在都遇到了瓶颈。或者说,没有开始的时候发展的那么快,有很多难题需要解决,也可能需要创造新的技术。对于应用而言,我觉得基础技术和硬件水平目前大致是够用的,更重要的是如何把技术用好,有针对性的去突破技术瓶颈。

提问:单目标跟踪SOT(给定模版跟踪单个目标,类别无关/可跨域)近两年的进展非常显著,具有解决快速跟踪的潜质,想请问目前有没有在地图业务这边比如视觉定位(VO中跟踪路标)/AR导航(短时跟踪)中应用的前景?如果有的话,请问需要解决什么样的需求问题(鲁棒/速度等)?

任小枫:跟踪是一个视觉基础技术,在很多场景都有应用。对于导航和出行,确实在AR导航、定位上能起到核心作用,减少识别(检测)的计算需求,并增加鲁棒性和平滑性。但是在很多实际应用中,跟踪的使用和需求和学术界单目标跟踪的设置会有所不同。

提问:视觉特征是否能结合语义给地图的导航出行服务带来更好的体验呢?

任小枫:视觉可以提供高精度的定位,也可以提供场景的语义理解,肯定可以带来导航和出行更好的体验。但是具体的产品体验和技术实现还需要进一步的探索和积累。

提问:计算机视觉下一步的重难点是哪个方向?未来的前景如何?

任小枫:计算机视觉是一种通用的感知手段,信息量很大,可以用于多种感知任务,可以远距离观测,应用的前景是很广阔和美好的。下一步的难点,除了基础技术需要进步和突破外。还有:如何找到视觉能发挥核心作用的应用场景,如何根据实际问题综合各类算法设计整体方案,如何较好的解决计算资源的问题,如何结合其他传感器和先验知识等问题。

AR导航

提问:AR导航是实时图像计算的吗?设备算力可以打标吗?

任小枫:AR导航是实时图像计算,在低算力的条件下实现导航和辅助驾驶功能。我们也尽可能的进行“预计算”,事先计算好环境中的一些元素,来配合实时计算。

提问:AR导航最后通过什么来展示内容?显示屏还是HUD?

任小枫:AR导航有多种产品形态:中控屏、HUD、后视镜、仪表盘,这些都是正在使用/潜在使用的展示方式。

提问:有一个非技术性的问题,AR导航会不会过度吸引驾驶员的注意力,导致他/她忽略车辆两侧的交通?

任小枫:这是一个产品设计的好问题,也是我们一直在打磨和寻求平衡的问题。一个设计的好的AR导航产品,会考虑到不过多吸引注意力。

提问:安全辅助驾驶会有疲劳驾驶检测吗?

任小枫:高德的AR导航目前只有朝外的单目相机,没有支持疲劳驾驶检测。对车内的监控,包括疲劳检测,是视觉技术在安全辅助驾驶的一个重要应用。

定位技术

提问:室内定位现在主流实现技术有哪些?基于声信号的室内导航前景好吗?

任小枫:室内定位有多种基于传感器的技术,包括WiFi,Bluetooth,RFID,Ultra-Wideband,也包括声信号。我觉得室内定位的发展,如果需要部署传感器,很大程度上不是取决于技术和定位精度,而是是否有好的应用。WiFi定位的普及是因为室内网络需要WiFi。iPhone 11装了UWB芯片可以近距离文件传输。

提问:GPS定位那么大的差距是什么原因导致的?因为多路径效应吗?

任小枫:GPS定位不准有多个原因,主要是在“城市峡谷”(高楼林立)的场景。多路径效应是其中最重要的因素,因为环境的折射(特别是像玻璃这样的高反光材料),导致GPS位置计算不准。其他方面还有因为楼宇/高架桥的遮挡导致能观察到的卫星数降低,空气(特别是带电离子和水蒸气)的干扰,等多种原因。

提问:高德如何解决GPS漂移的问题?

任小枫:这是一个复杂的问题。基于手机传感器,我们结合实际的驾驶和步行场景做了很多优化,包括GPS置信度分析,和IMU结合,和路网结合等。视觉定位是我们在开拓的解决定位不准的一个新方向。

地图基础技术

提问:目前高德地图图层有哪些?是语义级高精度地图吗?

任小枫:高德地图有多种地图数据形态,从标准地图(高德App上看到的),到车道级地图,到高精地图。精度不同,对应的应用不同。多种地图中都有语义信息,但是语义信息的内容和精度会有不同。

提问:深度相机和普通的相机有什么区别?

任小枫:普通相机获取的信息是二维RGB图像,没有三维信息。深度相机在每个像素上,除了RGB颜色之外,也同时获取深度(距离)信息,一般是利用主动模式(time-of-flight, structured light等)。现在很多主流手机上都已经配备了深度相机。

提问:高德地图对道路信息是怎么采集的,道路有变化地图会实时更新么?

任小枫:高德地图道路信息有多个来源,主要是依靠低成本的车载视频资料。道路相关信息是在随时变化的,我们会不断的采集最新资料并制作更新地图数据,及时上线应用。

提问:室内三维空间(比如多层的商业大楼)地图绘制的难点有哪些?

任小枫:室内三维地图绘制最大的难点在于数据采集。三维重建的方法需要有多个角度的图像。基于深度相机的移动建模方法精度上不一定能满足需求。

新人职业成长

提问:从视觉和图像领域的学术研究领域到公司商业计算机视觉应用技术开发需要补充哪些知识?

任小枫:我觉得主要要考虑的不是补充具体的知识,而是要注意培养自己的各方面的能力:(1)对实际问题的分析和解决的能力;(2)动手能力;(3)快速学习和拓展知识的能力。

提问:从事计算机视觉领域该如何制定职业规划?

任小枫:和其他行业和技术方向的职业规划没有本质的区别,要结合自身的长/短处和兴趣,找到自己合适的工作方向,逐步提高技术深度,广度,高度,综合能力,一步步做出实际结果发展职业。

提问:请问现在从事视觉领域工作是否一定要具备深度学习的技能?

任小枫:计算机视觉现在大量的使用深度学习技术,深度学习的知识和技术我觉得是必须的。有一些和几何相关的子领域,比如三维重建、SLAM/VIO,深度学习应用的还不多,但是(1)后续预计会有更多的深度学习应用;(2)从提高技术广度和视野出发,也需要一定程度上了解深度学习。

业界热点及其他

提问:自动驾驶会用到5G技术吗?

任小枫:目前看来,5G技术会在自动驾驶上有多种应用,但对于L4/L5全自动驾驶,我觉得5G并不能从根本上解决自动驾驶安全性(和舒适性)的难题。

提问:跟踪和定位中的计算端和云如何配合?

任小枫:大体上来说,实时性要求高的,和传感器结合密切的,会在端上完成;和地图结合密切的,需要用到大量参考数据的,会在云上完成。

提问:谷歌地图有一个街景地图的模块用到了许多图像识别的技术,街景地图怎么拼成的?以及街景发展趋势是怎样的?

任小枫:谷歌地图的街景地图主要来自于谷歌自己的街景采集车,车上载有高质量的相机和组合惯导等传感器。街景地图主要是一个拼接的过程。街景地图很有意思,但还没有对导航和出行的体验带来根本的变化。谷歌最近的AR步行导航(这个和高德的车载AR导航不同)是基于街景地图的一个新应用。

提问:可穿戴设备(类似眼镜、智慧助手等)在视觉技术上如何更好的落地以及产品化?

任小枫:硬件(AR展示,算力)和体验是可穿戴设备要真正落地和普及的主要问题。Google Glass作为一个超前的产品,在硬件上受限制太大。目前AR眼镜的应用主要在企业场景。我个人觉得可穿戴设备作为个人助手(包括导航,信息展示等)的应用前景是很好的,但现在硬件条件可能还不成熟。

高德地图首席科学家任小枫QA答疑汇总丨视觉+地图技术有哪些新玩法?的更多相关文章

  1. 香侬科技独家对话Facebook人工智能研究院首席科学家Devi Parikh

    Facebook 人工智能研究院(FAIR)首席科学家 Devi Parikh 是 2017 年 IJCAI 计算机和思想奖获得者(IJCAI 两个最重要的奖项之一,被誉为国际人工智能领域的「菲尔兹奖 ...

  2. 百度首席科学家 Andrew Ng谈深度学习的挑战和未来(转载)

    转载:http://www.csdn.net/article/2014-07-10/2820600 人工智能被认为是下一个互联网大事件,当下,谷歌.微软.百度等知名的高科技公司争相投入资源,占领深度学 ...

  3. 【转载】 第四范式首席科学家杨强:AlphaGo的弱点及迁移学习的应对(附视频)

    原文地址: https://www.jiqizhixin.com/articles/2017-06-02-2 ============================================= ...

  4. 【高德API】如何利用MapKit开发全英文检索的iOS地图

    原文:[高德API]如何利用MapKit开发全英文检索的iOS地图 制作全英文地图的展示并不困难,但是要制作全英文的数据检索列表,全英文的信息窗口,你就没办法了吧.告诉你,我有妙招!使用iOS自带的M ...

  5. 【高德地图API】一句话搞定webmap(一)——轻地图组件

    原文:[高德地图API]一句话搞定webmap(一)——轻地图组件 摘要: 遥想当年,在APP中加入LBS元素相当困难:要刻苦学习java,要刻苦学习iOS开发,要刻苦学习javascript…… 而 ...

  6. 首席科学家马丁•福勒(Martin Fowler)

    现任思特沃克公司首席科学家的马丁·福勒先生是当今世界软件开发领域最具影响力的五位大师之一.作为一位敏捷软件开发方法的早期开拓者,福勒先生对IT 业的影响是不可估量的. 思特沃克公司是一家跨国专业IT ...

  7. 微信小程序室内地图导航开发-微信小程序JS加载esmap地图

    一.在微信小程序里显示室内三维地图 需要满足的两个条件 调用ESMap室内地图需要用到小程序web-view组件,想要通过 web-view 调用ESMap室内地图需要满足以下 2 个条件: 1. 小 ...

  8. 华为云PaaS首席科学家:Cloud Native +AI,企业数字化转型的最佳拍档

    近日,在2019华为全球分析师大会期间,华为云PaaS首席科学家熊英博士在+智能,见未来(华为云&大数据)的分论坛上,从云计算行业发展谈起,深入云原生发展趋势,对华为云智能应用平台做了深度解读 ...

  9. 支付宝小程序室内地图导航开发-支付宝小程序JS加载esmap地图

    如果是微信小程序开发,请参考微信小程序室内地图导航开发-微信小程序JS加载esmap地图文章 一.在支付宝小程序里显示室内三维地图 需要满足的两个条件 调用ESMap室内地图需要用到小程序web-vi ...

随机推荐

  1. [HDU2072]单词数<字符串>

    链接:http://acm.hdu.edu.cn/showproblem.php?pid=2072 Problem Description lily的好朋友xiaoou333最近很空,他想了一件没有什 ...

  2. MATLAB—地图

    一.画亚洲地图 1.worldmap() (1) clear all worldmap('World') clear all worldmap('World')%世界地图 load coast %载入 ...

  3. 创建Windows10无人值守(自动应答文件)教程

    一.准备工作 系统要求: Windows10 1809版本 工具下载: 镜像:Windows10,任何一个版本都可以,我使用的是1909版本 ed2k://|file|cn_windows_10_bu ...

  4. 一款基于SVM算法的分布式法律助手

    一. 项目简介 与 使用说明 体验网站(适配手机端): http://www.zhuchangwu.com 项目基于 Spring Cloud .Vue 构建,平台针对需要维权的用户而设计,主要提供如 ...

  5. A 工艺

    时间限制 : - MS   空间限制 : - KB  评测说明 : 1s,128m 问题描述 小敏和小燕是一对好朋友. 他们正在玩一种神奇的游戏,叫Minecraft. 他们现在要做一个由方块构成的长 ...

  6. Python 【基础面试题】

    前言 面试题仅做学习参考,学习者阅后也要用心钻研其中的原理,重要知识需要系统学习.透彻学习,形成自己的知识链.以下五点建议希望对您有帮助,早日拿到一份心仪的offer. 做好细节工作,细致的人运气不会 ...

  7. ssh 解决经常断开与记住密码功能

    一.解决ssh经常自动断开问题 修改 /etc/ssh/sshd_config 其中对应项为 ClientAliveInterval 30 ClientAliveCountMax 3 表示每30秒发一 ...

  8. 家庭记账本app进度之android中AlertDialog的相关应用以及对日期时间的相关操作(应用alertdialog使用的谈话框)

    对于AlertDialog的相关知识: 1.创建构造器AlertDialog.Builder的对象:    2.通过构造器对象调用setTitle.setMessage.setIcon等方法构造对话框 ...

  9. 数据结构-Python 字典

    字典是另一种可变容器模型,且可存储任意类型对象. 字典的每个键值 key=>value 对用冒号 : 分割,每个键值对之间用逗号 , 分割,整个字典包括在花括号 {} 中 ,格式如下所示 d = ...

  10. TP字段加一操作

    经常有需要对某个数据表的计数字段进行加减操作,我们来看下在ThinkPHP中的具体使用办法.最简单的,使用下面方法对score自动加1: M('User')->where('id=5')-> ...