Seeing AI:计算机视觉十年磨一剑,打造盲人的“瑞士军刀”

Bellard(左)和AnneTaylor(右)是Seeing
AI开发团队的成员,SeeingAI成果的背后是计算机视觉数十年研究的支持。
当Anne
Taylor走进一个房间时,她像其他任何人一样都会关心这样一些问题:哪里有空座位?向我走来的那个人是谁?那个人是在微笑还是皱眉?这个标志牌是什么意思?
然而,对于双目失明的Taylor而言,这些信息并非总是那么容易找到。她说,现在已经有一些能够帮助视障人士的手机应用和工具,但往往功能单一,而且并不是很好用;大多数视障人士更愿意尽可能独立地领略这个世界而不是选择请求他人帮助。
Anne
Taylor现在是微软的一名高级项目经理,她的职责是让微软的产品更容易使用,“我们要为真正重要的场景寻求解决方案”,她说。大约一年前Taylor来到微软,她立刻就对一群研究员和工程师的一个合作项目产生了兴趣。他们从事的项目旨在为视障人士开发一套辅助工具——Taylor亲切地称之为未来的“瑞士军刀”(“Swiss
Army knife”)“我说,‘让我们做一些真正对盲人群体有重要意义的事情吧!’“
这个项目名为Seeing
AI,该技术通过计算机视觉和自然语言处理来描述一个人的周边环境、朗读文本、回答问题,甚至能够识别他人的面部表情。SeeingAI可以用于手机应用,也可用于Pivothead智能眼镜。Taylor说,Seeing
AI为依靠导盲手杖和导盲犬的视障人士提供了另一个层面的信息,“这款应用将有助于为视障人士营造更公平的环境。”
Seeing AI已在上周举行的微软2016
Build开发者大会上首次公开亮相,并受到了一致好评,目前其正式发布日期待定。Build大会期间,微软还推出了CaptionBot(图像描述机器人),这是一个可以接收任何图像并提供图像详细描述的演示网站。
观看Build大会Seeing AI视频链接:微软认知服务: Seeing AI应用
极深的深层神经网络、自然语言处理及更多
Seeing
AI和CaptionBot作为最新的技术成果,其背后的计算机视觉、图像识别、自然语言处理和机器学习等领域的研究已持续了数十年。近年来,一系列的研究突破让计算机视觉研究者们有机会完成在几年前还不敢想的事情。
负责微软认知服务(Microsoft Cognitive
Service)中图像描述(Image
Captioning)技术研究的微软资深研究员何晓冬形容道:“有人将其形容为奇迹。可以说,我们今天开发的智能技术比六年前好太多了。”他说,该领域的进步是如此之快,不用说六年,就是现在与六个月前相比都会有很多进步。例如,他的团队中主管开发工作的高级研究工程师Kenneth
Tran最近想出的一个方案,使得图像描述系统的速度提高了20倍以上,从而让Seeing
AI的用户能够更加迅速地获取他们所需的信息。
几年前,研究员们想到了利用深层神经网络这种模仿人类大脑生物过程的系统来从事机器学习。随着系统获得与任务相关的训练数据越来越多,它们就变得越来越善于做某些事情——机器学习指的就是这个过程。例如,如果一名计算机科学家想设计一款帮助骑自行车的人识别后方车辆的应用,他就要向计算机提供无数张车辆的照片,以让这款应用学会识别一辆汽车与一个交通标志或一棵树之间的区别。计算机科学家以前也曾运用过神经网络,但却不是以这种方式,而如今新的方法让计算机视觉的精确度实现了巨大飞跃。
就在几个月前,微软亚洲研究院首席研究员孙剑和主管研究员何恺明实现了又一个巨大突破:他们推出了一个深达152层的“深层残差网络”系统用于准确识别图片,这一图像识别的新方法显著改善了识别精度。该系统在ImageNet图像识别挑战赛中的错误率低至3.57%,而此前人眼辨识的错误率大概为5.1%。这项研究在学术界引起了轰动,除了ImageNet之外,研究员们还赢得了另一图像识别领域的主要赛事:微软常见物体图像识别挑战赛(MSCOCO,
Microsoft Common Objects in Context)。
让科技做你的“眼”
微软研究院的研究员们不仅在寻找识别图像的方法,还在为图像进行描述。这项研究结合了图像识别技术与自然语言处理技术,能帮助视障人士获得对图像的准确描述,还可能帮助那些需要图像信息却无法直接看到图像的人——比如正在开车的司机。
与其他研究项目一样,该图像描述的研究工作也因其准确性而广受赞誉,并且为Seeing
AI和CaptionBot的功能奠定了基础。现在,研究人员正在努力拓展训练数据集,以便让用户通过图像描述能够更深入地了解自己周围的世界。

Mitchell
Seeing
AI项目组中的Margaret
Mitchell是一名专攻自然语言处理的研究员,也是图像描述领域顶尖的研究者之一。她说,她和同事们正在寻找方法,让计算机可以用更加人性化的方式来描述图像。例如,计算机可以将一个场景准确地描述为“一群人坐在一起”,但真人可能会将这一场景描述为“一群人坐在一起享受美好时光。”目前的挑战就是让这项技术懂得一张图像中哪些是对人们最重要、最值得描述的内容。“一张图像中有什么,和我们如何谈论一张图像可是完全不同的两回事,”Mitchell说。
微软的另一些研究员们正在努力让最新的图像识别工具提供更深入的图片解释。例如,与单纯地将图片描述为“一个男人和一个女人坐在一起”相比,对人们更有帮助的描述可能是:“奥巴马和希拉里·克林顿正在摆pose拍照”。今天人们在网上搜索图片时,绝大多数情况下搜索引擎会根据与图片相关的文字内容,从而得到美国名媛金·卡戴珊或“霉霉”泰勒·斯威夫特的照片,这些搜索结果主要依据文本内容。而微软的资深研究员张磊及郭彦东等研究员正在开发一套借助机器学习识别名人、政治家和公众人物的系统,这套系统会根据图像本身的元素,而非与图像相关的文字内容来进行图像识别。
这一研究成果将成为微软认知服务中最新的视觉工具的一部分。微软认知服务基于微软领先的机器学习研究成果,开发者们可以用它来构建应用和服务,例如识别人脸、辨别情绪、分清不同的声音等,这些工具还为how-old.net(微软颜龄机器人)和Fetch(微软看图识狗)等有趣的微软人工智能应用提供了技术基础。
从一个灵感到实用产品
一直以来,微软研究院最新的研究进展都以闪电般的速度转化为人们可以实际使用的产品,而这一现象越来越普遍,微软认知服务就是一例。从事微软认知服务项目工作的工程师认为,他们的工作有点像拼图游戏,用来拼图的模块就是最新的研究成果。“所有这些模块被拼在了一起,而我们则需要弄清楚如何把它们呈现给终端用户。”微软认知服务的软件工程经理Chris
Buehler说道。
Seeing
AI这个最终将有可能帮助视障人士的研究项目,是研究成果如何快速转化为实用工具的另一个例证。这个项目的想法是在去年“微软骇客马拉松”(//oneweek
Hackathon)活动中被提出来的。该活动会让微软各个部门的员工聚在一起,努力让疯狂的想法成为现实。

打造Seeing
AI的小组成员包括来自世界各地的研究员和工程师。Seeing
AI吸引他们的除了其技术上的挑战外,还有他们期望帮助视障人士更加独立生活的美好目标。“我们是一个由不同背景的人员组成的超级团队,我们努力拿出一些人们切实需要的东西,”自Seeing
AI项目成立以来一直在其中担任领导角色的Anirudh
Koul表示,他之所以对Seeing AI有着极大的兴趣,是因为他的祖父正在逐渐失明。
而对于文章开头的Taylor来说,双目失明的她加入微软正代表了盲人的需求,这不仅是一次很好的经历,而且真的带来了一种能够改变人们生活的潜在产品。当初,Seeing
AI旨在为视障人士开发一套“瑞士军刀”的愿景吸引了她的加入,如今,正如Taylor所说,“我们最后真的推出了这款如此宝贵的‘瑞士军刀’,让其他视障人士也能更好地欣赏这个世界的美好。”
原文链接:
Decades of computer
visionresearch, one ‘Swiss Army knife’
相关阅读:
刷新神经网络新深度:ImageNet计算机视觉挑战赛微软中国研究员夺冠

欢迎关注
微软亚洲研究院官方网站:http://www.msra.cn
微软亚洲研究院人人网主页:http://page.renren.com/600674137
微软亚洲研究院微博:http://t.sina.com.cn/msra
微软亚洲研究院微信:搜索“微软研究院“或扫描下方二维码:

Seeing AI:计算机视觉十年磨一剑,打造盲人的“瑞士军刀”的更多相关文章
- ZT:阿里合伙人发文:十年磨一剑,自研数据库终拿世界第一
按:真正做技术的,就该这样. 以下为全文转载 (观察者网讯) 10月24日,阿里巴巴合伙人.高德总裁刘振飞在阿里云开发者社区发文,回忆从2009年启动“去IOE”工程到2019年OceanBase拿下 ...
- 十年磨一剑 Delphi重新崛起再写传奇
新年伊始,英巴卡迪诺公司(Embarcadero)就在其官网发布了"激动人心的RAD Studio2018年发展规划"公告(见上图).公告中指出,将在于2018年第一季度发布10. ...
- 十年磨一剑 Delphi再写传奇(不争辩,不解释,十年坚持不懈的努力)
新年伊始,英巴卡迪诺公司(Embarcadero)就在其官网发布了“激动人心的RAD Studio2018年发展规划”公告(见上图).公告中指出,将在于2018年发布10.3.X新版本,新版本兼容Ex ...
- 十年磨一剑,王坚自研的MaxCompute如何解决世界级算力难题
摘要: 2009年这项关于大数据的技术长征开始.王坚带队,目标是自研大数据计算平台MaxCompute统一阿里巴巴内部的数据和大数据计算体系. 大数据时代,随着企业数据规模的急剧增长,传统软件已无法承 ...
- Peter Norvig:自学编程,十年磨一剑
若要在某一领域内达到专家级的水平,其关键在于"审慎地重复",也就是说,并非是机械地,一遍又一遍地练习,而是要不断地挑战自我,试图超越自身当前的水平,通过不断的尝试挑战,并在尝试的过 ...
- 2019年上半年收集到的AI计算机视觉方向干货文章
2019年上半年收集到的AI计算机视觉方向干货文章 时光飞逝,一晃上半年快要结束了.对人工智能高度感兴趣的笔者,每天都要看不少人工智能方面的文章,很多是干货文章,受益匪浅,所以整理成这个系列的文章. ...
- 解剖SQLSERVER 第十六篇 OrcaMDF RawDatabase --MDF文件的瑞士军刀(译)
解剖SQLSERVER 第十六篇 OrcaMDF RawDatabase --MDF文件的瑞士军刀(译) http://improve.dk/orcamdf-rawdatabase-a-swiss-a ...
- 第三百八十八节,Django+Xadmin打造上线标准的在线教育平台—网站列表分页
第三百八十八节,Django+Xadmin打造上线标准的在线教育平台—网站列表分页 分页可以用一个第三方分页模块django-pure-pagination 下载地址:https://github.c ...
- 第三百八十三节,Django+Xadmin打造上线标准的在线教育平台—第三方模块django-simple-captcha验证码
第三百八十三节,Django+Xadmin打造上线标准的在线教育平台—第三方模块django-simple-captcha验证码 下载地址:https://github.com/mbi/django- ...
随机推荐
- list循环 字典循环 字符串常用方法
list = ['xiaoli','xiaohua','huali']user = {'zhang':'123','lin':'321','chen':'222'}#list循环for stu in ...
- 吴裕雄--天生自然 pythonTensorFlow自然语言处理:PTB 语言模型
import numpy as np import tensorflow as tf # 1.设置参数. TRAIN_DATA = "F:\TensorFlowGoogle\\201806- ...
- python与mysql部分函数和控制流语法对比
条件语句 python语法 a=int(input("输入一个数[0,100]成绩:")) if 100>=a>=90: print("优") el ...
- Solving ordinary differential equations I(Nonstiff Problems),Exercise 1.2:A wrong solution
(Newton 1671, “Problema II, Solutio particulare”). Solve the total differential equation $$3x^2-2ax+ ...
- String Distance and Transform Process
http://acm.hdu.edu.cn/showproblem.php?pid=1516 Problem Description String Distance is a non-negative ...
- [JS]實作LinkedList鏈結串列
由於自身資料結構的基礎薄弱,買了一本JavaScript資料結構與演算法實作的書來看,重新把LinkedList鏈結串列學習了一遍,並用JS實作出來. LinkedList鏈結串列 要存放多個元素,最 ...
- 38)PHP,获取数据库数据并在html中显示(晋级5)
还有一个加了单例模式的,在第52个. 首先是我的文件关系: 我的主php文件是index.php,我的配置文件php是BBB.php 我的数据库操作文件是 b.php 我的html文件是lo ...
- curl查看请求你响应时间
[root@localhost ~]# curl -o /dev/null -s -w time_namelookup:%{time_namelookup}"\n"time_con ...
- HTML语言 网页制作-----标签、表格、表单、框架
一:序 Html静态网页,内容(hyper text markup language,超文本标记语言) Css 网页美化 Javascript 脚本语言 二:html的介绍 <!DOCTYPE ...
- JAVA专业术语面试100问
前言:面试技巧另外开篇再说,先上面试干货吧.Redis.消息队列.SQL不要走开,关注后更精彩! 1.面向对象的特点有哪些? 抽象.继承.封装.多态. 2.接口和抽象类有什么联系和区别? 3.重载和重 ...