中国人工智能AI框架自主研发

中国AI界争相构建AI开源框架的背后,技术和业务层面的考量因素当然重要,但也不应忽视国家层面的政策支持。对于AI基础设施的建设,中国政府在《新一代人工智能发展规划》等关于AI顶层规划的政策中都着重提及,除了加大应用层技术落地,更希望业界和学界深入AI底层技术研发。*两年,基础技术的“卡脖子”话题成为*两年中国科技界探讨的热点,担心中国AI的发展会像芯片发展那样遭遇空中楼阁的困境。AI专家也在四处布道“做人工智能必须要做开源,中国要想发展好新一代的人工智能,必须要有高效和风险可控的开源开放平台”的观点。*期,由于疫情冲击经济,在政府高层推动下,市场更是掀起一股“新基建”的热潮,其中以5G、大数据中心、人工智能和工业互联网组成的数字化基础设施备受关注。对有雄心发展AI的企业或者国家来说,通过自主研发来掌握AI底层技术无疑是一项重大战略。

中国目前深度学*研究和应用主要依赖于国外平台,的确面临着卡脖子的风险,所以一些国内的IT企业也推出了自己的平台。中国应该在人工智能生态的全产业链上占有一席之地。除了计算框架仍然存在着大量亟需优化解决的问题,华为做MindSpore的另一大缘由是技术战背景。必须要有自主可控的全场景的计算框架。计图、天元、MindSpore的接连开源或许会给中国开发者做硬核开源项目打一剂强心针。中国开发者对开源框架的敬畏之心一直太强,不认为中国团队能做一套开源框架,但现在对这些开源框架有足够认识后,再造一个类似Pytorch技术路线的框架难度也不会很大。今年应该是国内开源AI框架比较热闹的一年,一流科技的OneFlow框架也将在不久后开源,对国内技术框架的竞争力充满信心,中国AI框架的发展也代表国内从应用驱动向更内核的技术研究进发了。无论如何,计图、天元、MindSpore点燃了2020年国产AI框架开源的星星之火,至于未来的影响力是否燎原,是否能真正与TensorFlow、PyTorch一较高低,投票权在每一位开发者的手中。

PyTorch本质上是Numpy的替代者,而且支持GPU、带有高级功能,可以用来搭建和训练深度神经网络。如果你熟悉Numpy、Python以及常见的深度学*概念(卷积层、循环层、SGD等),会非常容易上手PyTorch。 而TensorFlow可以看成是一个嵌入Python的编程.。

在AI框架领域,本来TensorFlow看上去已经一统天下了,然后PyTorch突然来一个动态图好像就翻身了,其AI框架还有没有机会?后续最重要的技术创新可能是什么?

模型上还是有很多可以突破的地方,自己做结构化数据,觉得这个方向很新颖,这带来从上往下走,从模型开始到底下都有很多的变化,所以还是前瞻性比较多。如果说看得很*,觉得结构性的东西会有突破,以前的很多step可能都不见得更加泛化。

举个例子,假如bert里面大家知道结构是什么样,所有的Token都连在一起,是个全连接的图,是图计算的一个特例。还有把这一个有结构的和没有结构的这个stack融合在一起。

如果让看有什么重要问题,觉得不在平台,原动力还是在模型、在数学上面,这也是诟病现在所有深度学*框架的一个通病,以为学*了Python、学*了某一种框架就懂了深度学*,这其实是非常差的,最后的动力在数学。也正是因为这个原因,在做另外一个框架,现在还不能说。

这个领域是由数学模型和算法驱动的,下面这些软件应该去支持这些新的模型和算法的东西。

侧重于方法和模型上更重要,这个观点也是对的。但是框架问题,想说为什么框架重要,怎么能在框架上有所超越,这是今天讨论的要点。

为什么做框架?深度学*做科学工程冲击太大了,包括现在图形学,MIT有个博士论文获得了最佳博士论文奖,就是做可微图形学,在加强学*框架思路下,传统学科都被重新定义、重新思考,这是一个激动人心的时代,一切都在变革。这种时候框架的重要性是毫无疑问的,如果不用框架,从头什么都自己写,这是不现实的。

认为过几年之后,这些企业的工程师都得重新学*,因为现在这些学生编程的东西跟10年前完全不一样了,变化是非常大的。所以框架的重要性是非常值得关注的,这是一个。

第二个,如果没有自己的框架,这显然是有很大问题的,包括EDA软件的问题等等,这是不可思议的。为什么中国这么多企业想做框架?华为不做不行,美国说不能用了,那就不行了。旷视科技做得这么好,如果没有自己的天元,说不让用TensorFlow了,那大楼的底柱就塌了,所以这个是必须要做的。但怎样超越是很难的。

觉得要超越,技术上要创新,如果重复(造轮子)的话可以解决“卡脖子”问题,但是无法超越,要想超越,必须进行技术创新。

框架最本质是计算图的问题,因为是数据结构,能够把定义好。计算图这个事情,利用算子融合把计算图整合起来是个机会,不是唯一的机会,各位嘉宾谈的很多观点都非常好,咱现在中国国内是百家争鸣,希望有些尝试和努力能够成功、能够超越。中国的科技创新机会的窗口期很小,PyTorch已经联系聊过很多技术细节,下一代框架就会用统一计算图,因为都是开源的,也能看得见,所以机会很小。

共同努力把框架这个事情推进一步,不让成为中国人工智能发展的短板。

主要新技术是计算图相关的优化技术。有一种说法是大学要不要做这种复杂的系统软件?因为维护不了。但经常反对这种观点,就经常举伯克利的例子,做了好几个系统软件都非常成功。大学里面有非常多天才程序员,而系统软件有个特点是少数天才可以超过很多中等水平的人,所以大学做一些技术上的探索是完全有可能的。当然,后续真正的产业化和长期维护是另外一个问题,但是大学做这种基础性软件的探索是非常好的。

虽然一直在讨论框架技术,但是觉得生态反而是应该更加要关注的一点。所有的框架都在进步,而且投入比加起来还要大,这样的话就给能够做的比较好的概率就很低了。

比如刚才查了一下最*框架的下载量,最*7天TensorFlow的下载量是250万次,然后还查了一下其框架,在开这个会议的这段时间,TensorFlow的下载量已经远超过这么多框架历史以来的下载量,所以差距在这儿。

应该更多探讨一下生态该怎么建设,可以看到TensorFlow和PyTorch虽然看起来是两个公司,但其实后面的合作是挺多的,比如PyTorch的可视化也用了TensorFlow的。今天有这么多企业、大学在一起,但是很少见到国内两个不同的企业或者不同的学校之间会有一些合作的例子。

在编程框架的接下来可以创新或者值得突破的地方,个人觉得会有两点。第一点是从第一代的caffee,到TensorFlow、PyTorch,更靠*真正的编程语言,正好这个编程语言选中了Python,但是在表达上越来越靠*图灵完备的编程语言。从前年开始,Keras开始更流行起来,也有去讨论比如PyTorch跟Keras、TensorFlow之间的区别,Keras的很大的优势是提供一模一样的API,只是底下实现到TPU或者GPU,在表达能力上是一个更纯粹的Python的表达能力。

现在深度学*研究里的一个问题是模型学*能力比较低效,大量数据进去,出来的学*能力*几年遇到一些瓶颈,模型在逐渐变大。如果接下来想在这个方向有更大突破,在框架上不能支持更灵活表达能力的话,会阻碍AI在这个领域的发展。

比如像TensorFlow之前有一个工作是swift,尝试用swift做成一个完全defensible的语言,PyTorch现在还是有些局限,可以求导的只是在tensor上的操作,更原始的一些Python没有表达能力。框架在接下来几年如果能够把这个做好,是一个更能吸引用户的点。

第二,觉得从research到production的过渡,框架如何在这上帮助用户更好的过渡,也是非常重要的。从生态上来说,从研究到落地,一个商业模式向盈利,然后反哺商业上去推动研究,这个过程是很重要的。

接下来框架上比较重要的两个点,一个是表达能力更趋向于完完整整可导的语言,第二个是从研究到落地怎么能更快速。

第一个点从技术上是比较清楚的,第二个点不是特别理解,更多是流水线的问题?还是框架内部问题?

这是比较复杂的问题,一个是从框架层面如何做到跟现有的生产系统更好的整合,这是第一点。第二点,光从框架本身来说,比如像PyTorch有做这样的工作,直接解析Python代码,然后到一个图表示,这是其中一小步,可以看出来这个东西目前还没有完全做到用户无痛的转换,有很大的发展空间,可以被不断完善。

另外一点,在设计上,无论是框架还是系统,落地对不同公司不同案例是完全不一样的。比如之前在Facebook,工作负载是非常大的,可能只要优化1%,也能省很多台机器。但是对于更小规模的用量或者用户来说,所谓的部署是有一个模型,现在已经训练好了要上线,用量大部分可能达不到Facebook、谷歌或者阿里那么大,对来说想更快上线,而不是花一个月时间再优化这个pipeline。所以今天先上线,但是假设一个月内有没有机会朝性能更加高的方向去过渡,这个体验也是很重要的。

一个新框架,要想脱颖而出的话是一定要有创新,框架研发里面人才非常非常关键,做过研究,知道创新通常不是堆钱、堆人就能必然发生的,有的时候是有偶然性的,还有一些是可能发生在少数人身上。

所以对于国内框架来说,很多人参与、很多厂家参与是一个好事,从多个角度来做,成功率就会提高。

具体到技术上有什么可做的,认为在效率上有很多可做的点。一个是在宏观层面,怎么解决网络墙的问题。还有一个是在微观层面,现在有很多学者、公司在研究自动代码生成,用数学的逻辑描述这个运算是什么,然后能自动生成GPU或CPU上最快的,这个很活跃,觉得这是一个非常挑战的问题。

在这方面肯定不是专家。先从产品角度来说,产品吸引用户的话往往要有些亮点,一个框架一定程度上是个产品,那用户或者客户是谁呢?

最大用户是开发者,开发者追求的是易用,尤其在训练方面,易用框架的生态会建立得非常快。如果做到易用,需要做到哪些东西?对前沿算法的新结构支持得比较好,比如图神经网络或者新的骨干结构刚出来,框架就有人去做了。性能反而在前期对开发者来说不是那么在乎,因为大家在训练上更关注开发的效率,更少关注的是硬件成本或者其。

但对推理部署来说,在实际的生产业务系统里,大家追求的是性能。因为推理业务尤其对一个大企业来说,部署量非常大的,假如能够把性能做好,做5个百分点能节省5%的硬件成本,这其实是非常大的收益。

大家对于训练和推理这两个维度的关注是不一样的,未来训练和推理会慢慢的分开,比如训练侧重于通用,推理眼前类似融合到TensorRP或者其东西里面。并且从技术上来说,训练往往是逐层的,推理往往要做各种层融合优化,所以觉得训练和推理可能会有两个框架,只要对于做产品来说,把某一方面做得很好,就会有人用。

但这里有一个问题,生态的起源往往是起源于训练,所以怎么把训练好的模型在推理框架上更好的执行,可能中间会有一些新的挑战。

另外,觉得在终端现在有不一样的需求,大家从创业角度,在终端做个专门的框架或者引擎会有价值,因为终端的产品和形态差异化特别大,导致现在终端的人在开发AI应用是苦不堪言。

理解无论是训练、推理还是终端,会有分出来的需求,这些需求导致往下发展的话会有分支,分支完了以后对开发者是一个很友好的事,不知道未来会不会“天下合久必分,分久必合”,反正对做芯片的人来说,是希望这些框架都合在一起,不需要支持那么多框架。

想法是最终回归到价值上来。因为旷视有自己的技术信仰、价值务实,最终还要回到做框架,做技术创新,这是个功能,还是真正给用户带来什么?

用户有两类,一类是研究者,一类是研发者,在旷视公司能够知道深度学*从产品到落地有多少环节、多少困难,做这个框架是为了自己更好,希望经验帮助更多人,也是出于这样的观点。

如果从现状来看,深度学*框架在价值维度上有三点:

第一点,希望更快,性能肯定是大家非常关注的一点,性能意味着成本,意味着更好更大的模型,意味着更多、更好的商业机会。

第二点是灵活与易用,希望支持更多模型,支持更多范式,把更新技术尝试引进,而不是一个僵化的体系。

第三点,更规范。现在看到深度学*硬件设施雨后春笋般的蹦出来,包括寒武纪等等都在做一些事情,这里面蕴涵着大量的机会,在超越摩尔定律的状况下做事情,为什么不更广泛的使用,使得技术在各种芯片上跑起来,让大家都有机会成长起来。

从现状来看,这三点是衡量当前价值的点。觉得在这方面,不管是大框架、小框架,是大公司还是小公司,谁能提供value,谁就能够有机会,而不是一个垄断的行业。

对于未来的看法,充满不确定性,现在回过头来看产业基础,并不是那么扎实。比如深度网络,会对框架有怎样的需求和冲击,这是不知道的,现在的框架并没有很好的利用这样的变化。

要关心大的生态环境,是坚定的人类命运共同体的拥护者,坚决反对自己造原则。大家要从大局去考虑,然后选择好的点去往前推。假设都做开源的话,到最后是没有差异的。虽然是开源,但还是可以服务用户的,所以保护生态系统,保持开放性、前瞻性和活力是最要紧的。从小的点来看,作为动力去打磨、去造轮子,因为自己走过这个路,不觉得是非常好的路线。

对Keras看法是怎样?本身挺有威胁的,但作为真正能用的框架还是差很多。

非常同意Keras是一个innovation,个人也非常赞赏创新。提到框架现在是在互相学*、互相进步的过程。有些用户为什么喜欢Keras,比如有人提到一点是能自动bach,Keras是现存框架做得最完善的。PyTorch也会加入这个功能,最早PyTorch有尝试过,只不过没有意识到这个功能对用户很重要,对Pytorch也是很好的。

提到Keras作为真正能用的框架还是差很多。跟Keras团队也有交流,想法是PyTorch在dataload这块已经做得很好,Pytorch也有很好的交互,没必要再做这个事情。到Keras官网去看,会教如何用PyTorch的dataload,然后用Keras定义,训练完怎么交互,框架间这种融合能够工作迸发出新的创新。

对深度学*编译器如TVM、XLA的看法,以及与框架的区别和联系?

现在这些深度学*编译器,TVM确实做得非常不错,让更多框架能够运用到更多硬件上,华为的框架也有相当大部分代码是基于TVM开发的,TVM作为深度学*编译器是非常不错的,XLA是用于TensorFlow的编译器,PyTorch好像也在对XLA进行移植和支持,这两个深度编译器都挺不错的,就看应用的硬件是什么,现在回传的芯片都可以跑在TVM上,如果运行Google的TUP的话可能在XLA上性能比较好一点。

编译器与框架面向的对象也是有区别的,比如深度学*编译器更多用户是开发框架的,对硬件有一定的了解,但用TensorFlow的更多是深度学*的用户,从使用者角度是判断编译器和深度学*框架的最大区别。

早期编译器都是藏在框架项目的,但现在编译器本身的工作越来越完整了,就是基于编译器,也做了自动求导、子图优化,也都有Python接口,所以现在编译器和框架之间界限越来越模糊了,比如TVM,几乎就是一个新的框架了,所以现在严格区分框架和编译器好像比较困难,几乎是一回事了。

以前比较有名的框架慢慢被大公司收购,要么消失了,是不是小公司不适合搞开源框架?

感觉在开源社区里能成长起来,开源社区是非常公正公平的,是英雄不问出处。看到大公司做事情也不一定成功,同时小团队做事也有可能成功。对这点,持不同看法,只要创新性够,产品竞争力够,被开发者认可还是有机会的。

中国人工智能AI框架自主研发的更多相关文章

  1. 2017中国人工智能公司榜单发布,颠覆AT的AI独角兽全在这

    每年12月,创业邦研究中心评选并报道“中国创新成长企业100强”,这个榜单我们已经连续做了8年,是中国最有潜力的创业新贵榜,受到了业内广泛认可.从2015年开始我们发现,人工智能上榜企业明显增多,20 ...

  2. 【AI】【计算机】【中国人工智能学会通讯】【学会通讯2019年第01期】中国人工智能学会重磅发布 《2018 人工智能产业创新评估白皮书》

    封面: 中国人工智能学会重磅发布 <2018 人工智能产业创新评估白皮书> < 2018 人工智能产业创新评估白皮书>由中国人工智能学会.国家工信安全中心.华夏幸福产业研究院. ...

  3. 警告!中国90%AI初创企业将在两年内落败出局

    https://mp.weixin.qq.com/s/-RkyLda1jovaHBlBTsi-BA 近年来,中国涌现了一大批AI初创企业,但AI热潮也伴随着泡沫.由于近期市场资金紧缩,投资者发出警告, ...

  4. 2016中国人工智能企业TOP100, CBinsight2016年100家人工智能公司

    2016中国人工智能企业TOP100 不论在学界还是业界,均有代表人物对人工智能表示了担忧,如史蒂芬·霍金和比尔·盖茨.尽管如此,国内外科技巨头都积极发力人工智能,一波波创业者也相继涌入.人工智能成为 ...

  5. 解读 --- 基于微软企业商务应用平台 (Microsoft Dynamics 365) 之上的人工智能 (AI) 解决方案

    9月25日微软今年一年一度的Ignite 2017在佛罗里达州奥兰多市还是如期开幕了.为啥这么说?因为9月初五级飓风厄玛(Hurricane Irma) 在佛罗里达州登陆,在当地造成了挺大的麻烦.在这 ...

  6. 清华大学&中国人工智能学会:2019人工智能发展报告

    2019年11月30日,2019中国人工智能产业年会重磅发布<2019人工智能发展报告>(Report of Artificial Intelligence Development 201 ...

  7. AI框架外部用户贡献代码

    AI框架外部用户贡献代码 概述 飞桨是百度自主研发的一款开源的深度学习框架,是主流深度学习框架中首个完全国产化的产品,已经在农业.医疗.林业.科研.服务等领域成功应用.无论是已入职场的深度学习从业者. ...

  8. 昇思MindSpore全场景AI框架 1.6版本,更高的开发效率,更好地服务开发者

    摘要:本文带大家快速浏览昇思MindSpore全场景AI框架1.6版本的关键特性. 全新的昇思MindSpore全场景AI框架1.6版本已发布,此版本中昇思MindSpore全场景AI框架易用性不断改 ...

  9. 热烈庆祝华清远见成功自主研发Farsight TV 智能机顶盒

    近日,华清远见研发中心再传喜讯:Farsight TV 智能机顶盒研发成功并投入教学!这是华清远见研发中心继开源平板电脑.智能医疗终端.智能家居终端后独立成功研发的又一智能硬件!至此,开创了华清远见自 ...

随机推荐

  1. windows-API劫持(API-HOOK)

    API Hook ApiHook又叫做API劫持,也就是如果A程序调用了B.cll里面的C函数,我们可以做到当A调用C函数执行的时候,直接执行我们自己事先准备好的函数,之后我们在执行真正的C,当然我们 ...

  2. 【JavaScript】Leetcode每日一题-最大整除子集

    [JavaScript]Leetcode每日一题-最大整除子集 [题目描述] 给你一个由 无重复 正整数组成的集合 nums ,请你找出并返回其中最大的整除子集 answer ,子集中每一元素对(an ...

  3. 2020中国大学生程序设计竞赛(CCPC) - 网络选拔赛总结

    1003 Express Mail Taking 题意:有n个柜子(编号1-n),m封信,k号位置有钥匙,现在需要取信封,并且每取一次信封都要从k号位置进行领取一次钥匙,再去有信封的位置领取信封,问最 ...

  4. python函数默认值只初始化一次

    当在函数中定义默认值时,值初始化只会进行一次,就是执行到def methodname时执行.看下面代码: from datetime import datetime def test(t=dateti ...

  5. STL实现的底层数据结构简介

    STL实现的底层数据结构简介 C++ STL 的实现: 1.vector  底层数据结构为数组 ,支持快速随机访问 2.list    底层数据结构为双向链表,支持快速增删 3.deque   底层数 ...

  6. OO第1.2次作业·魔鬼的三角函数化简

    多年以后,面对办公室的屏幕,我会回忆起开始肝第二周OO作业的那个遥远的下午.那时的程序是一个一两百行的符号求导,基类与接口在包里一字排开,工整的注释一望到底 谁能想到,接下来的十几个小时我要经历什么样 ...

  7. Java7中Switch为什么只支持byte、short、char、int、String

    Java 7中,switch的参数可以是String类型了,这对我们来说是一个很方便的改进.到目前为止switch支持这样几种数据类型:byte short int char String .但是,作 ...

  8. 关于Annotation注解的理解

    在编Java程序的时候,我们经常会碰到annotation.比如:@Override 我们在子类继承父类的时候,会经常用到这个annotation.它告诉编译器这个方法是override父类的方法的. ...

  9. 普里姆算法(Prim)

    概览 普里姆算法(Prim算法),图论中的一种算法,可在加权连通图(带权图)里搜索最小生成树.即此算法搜索到的边(Edge)子集所构成的树中,不但包括了连通图里的所有顶点(Vertex)且其所有边的权 ...

  10. 剑指offer 数组中的重复数字

    问题描述: 在长度为n的数组中,所有的元素都是0到n-1的范围内. 数组中的某些数字是重复的,但不知道有几个重复的数字,也不知道重复了几次,请找出任意重复的数字. 例如,输入长度为7的数组{2,3,1 ...