AAAI |如何保证人工智能系统的准确性？

|如何保证人工智能系统的准确性？" title="AAAI |如何保证人工智能系统的准确性？">

注：本文译自AI is getting smarter; Microsoft researchers want to
ensure it’s also getting more accurate(https://www.microsoft.com/en-us/research/blog/ai-getting-smarter-microsoft-researchers-ensure-ai-accuracy）

|如何保证人工智能系统的准确性？" title="AAAI |如何保证人工智能系统的准确性？">

马里兰大学计算语言学和信息处理实验室计算机科学助理教授Marine Carpuat与语言学教授Philip
Resnik

就在10年前，利用技术手段实现自动对话翻译、图像识别、甚至是计算机看图说话之类的想法似乎还只是在实验室里的有趣科研项目，远非人们日常生活中的务实应用。

而近年来人工智能技术的进步改变了人们的想法。眼下，越来越多的人开始依赖于使用机器学习等技术构建的系统。这一切变化引起了人工智能研究人员的新思考：如何确保众多此类系统的根基——算法、训练数据乃至测试工具系统——做到精确，并且尽可能无偏差。

微软自适应系统和交互组（adaptivesystems and interaction group）研究员Ece
Kamar说，研究人员和开发人员的动力来自于他们意识到尽管系统本身并不完美，但已经有许多人会把重要的任务交托给它们。“这就是为什么我们必须要搞清楚，系统究竟会在哪里犯错误，”Kamar说。

|如何保证人工智能系统的准确性？">

上周在旧金山开幕的AAAI人工智能会议上，Kamar和微软的其他研究人员将发表两篇研究论文，它们旨在综合运用算法和人类专业知识，消除数据缺陷和系统缺陷。另外，另一组微软研究人员团队即将发表一个语料库（
语料库Microsoft Speech Language Translation (MSLT) Corpus，下载链接https://www.microsoft.com/en-us/download/details.aspx?id=54689），它可以帮助从事语音翻译研究人员测试其双语会话系统的准确性和有效性。

支撑人工智能的底层数据

开发人员在借助机器学习创建工具时，他们通常会依赖所谓的“训练数据”来训练系统执行特定任务。例如，为了教会系统识别各类动物，开发人员可以向系统展示诸多动物的图片，由此训练它们分辨猫和狗等物种之间的差异。

理论上，人们可以向系统展示它此前从未见过的狗猫图片，而系统应仍能够准确地对它们进行分类。但是，Kamar解释道，训练数据系统自身有时会存在一些所谓的盲点，而这将导致错误的结果。假设我们仅用白猫和黑狗的图片对系统加以训练，那么此后向系统展示一张白狗的图片时，它就有可能产生错误关联，并将白狗误认作猫。

出现这些问题的一部分原因在于许多研究人员和开发人员所使用的训练数据集并非专门设计用于学习其手头的特定任务的。原因很简单，已有的存档动物图片等现成的数据要比另起炉灶构建新数据集来的更快、更便宜——但是，反复检查这些数据的安全性则变得更加重要。

|如何保证人工智能系统的准确性？" title="AAAI |如何保证人工智能系统的准确性？">

“如果没有这些举措，我们就不会明白出现了什么样的偏差，”Kamar说。Kamar及其同事在他们的研究论文——Identifying
Unknown Unknowns in the Open World: Representations and Policies
for Guided Exploration（下载链接：https://www.microsoft.com/en-us/research/publication/identifying-unknown-unknowns-open-world-representations-policies-guided-exploration）中介绍了一种新算法，该算法可用于识别预测模型中的盲点，帮助开发人员和研究人员修复这些问题。虽然这现在还只是一个研究项目，但Kamar他们希望它最终可以发展成为开发人员和研究人员用于识别盲点的实用工具。“任何与机器学习相关的企业或学术机构都会需要这些工具，”Kamar说。

Kamar及其同事在AAAI会议上发表的另一篇研究论文（On Human Intellect and Machine
Failures: Troubleshooting IntegrativeMachine Learning Systems，
下载链接：https://www.microsoft.com/en-us/research/publication/human-intellect-machine-failures-troubleshooting-integrative-machine-learning-systems）则希望帮助研究人员弄清楚一个复杂的人工智能系统中各种不同类型的错误将如何导致不正确的结果。由于人工智能系统所执行的任务越来越复杂，所依赖的多个组件之间也会相互纠缠，因此对它们进行解析的难度可谓出人意料。假设一个自动图片说明编写工具将泰迪熊图片描述成了搅拌机。你可能会认为问题出在被训练用于识别图片的组件上，但最后却发现真正的问题出现在设计用于编写说明的组件上。为此，Kamar和同事设计了一种方法，为研究人员提供指导，帮助他们通过模拟各种修复方案来找出问题根源，从而解决这些问题。

“人机共生”（human in the loop）

Kamar表示，在从事包括上述项目在内的各种研究的过程中，她都受到了自己曾参与的“AI
100”（人工智能百年研究）项目的强烈影响。该项目在斯坦福大学展开，由Horvitz夫妇赞助，其目的在于探索未来100年间人工智能将如何影响人类。它的主要内容是分析和预测人工智能对人类的影响，从国家安全到公众心理以及个人隐私等等，几乎涉及了生活、工作中的各个方面。

Kamar说，她从这项工作中获得的教益之一，就是明白了确保研究人员深入参与系统开发、验证和故障排除全过程的重要性——研究人员称之为“人机共生”（human
in the loop）。这有助于确保我们所创建的人工智能将可以增强人类能力并以实际行动反映人们的意志。

测试对话翻译的准确性

开发人员和学术研究人员创建语音识别等系统时，他们可以利用被广泛认可的方法来测试其准确性：诸如Swtichboard和CALLHOME之类的对话数据集。

但是，Microsoft Translator团队的高级项目经理Christian
Federmann指出，可用于检测双语对话语音翻译系统，如Microsoft
Translator现场翻译功能（Live Feature）和Skype
Translator实时语音翻译技术的标准化数据集并没有那么多。

所以他和同事们决定创建一个。

|如何保证人工智能系统的准确性？">

微软口语翻译语料库（Microsoft Speech Language Translation (MSLT)
Corpus，下载链接：https://www.microsoft.com/en-us/download/details.aspx?id=54689）已于上周公开发布，并可供任何人使用。它允许研究人员对照一套包含法语、德语和英语的多回合双语会话数据集，衡量其自有会话翻译系统的质量和有效性。

该语料库由微软聘请的会说两种语言的朗读者制作而成，旨在创建一套标准来帮助人们测试其各自对话语音翻译系统的运行效果。“你需要高质量数据才能进行高质量测试，”Federmann说。事实上，对话语音和双语翻译相结合的数据集至今仍然如凤毛麟角。

马里兰大学计算机助理教授Marine
Carpuat从事的是自然语言处理研究，她说自己想测试对话翻译算法的运行效果时，经常不得不依赖于可免费获取的数据，例如欧盟文件的官方翻译等。

这些翻译资料原本并非用于测试对话翻译系统，而且它们也未必能反映出人们在实际生活中更为随意和自发的互相交谈方式，她解释道。这样，她就很难了解当人们希望翻译常规对话时——特别是伴随着各种停顿、迟疑语和口头禅时，她的翻译算法是否仍然适用。

Carpuat是这套语料库的早期试用者之一，她说语料库有“立竿见影”之效。“这样我就可以亲自检测，看看一套已知非常适用于正规文档数据的系统在尝试处理口语对话时会发生什么情况，”她说。

微软团队希望这套免费提供的语料库能够惠及整个对话翻译研究领域，并帮助创建更加标准化的尺度，借助它，研究人员就可以把自己的研究成果与他人的研究技术进行对比。

Microsoft Translator团队首席技术项目经理Will
Lewis也是本项目的参与者，他认为：“这将有助于推进整个领域的发展。”

|如何保证人工智能系统的准确性？">