前段时间去了长春一汽,聊了Reinforcement Learning方面的工作,既是面试,也是谈了谈意向,最后全部OK,本打算是签合同了,结果HR说要求有三年的社保缴纳证明工作经验,最后说可以减到24个月,不过说来也是有意思,我这人还真没社保,这就尴尬了,最后说这是上面的文件,国企就这要求,后来也只能作罢,但是这一趟也和一汽那边的人聊了聊,中间也是闲聊,对方的对接人员提了一个问题,那就是“国产AI模型和美国顶级AI模型的距离在哪?”,本文也是自己突然想起了这问题,也就有了下面内容。

这个AI模型的差距,其原因无非就是:算力?算法?数据?

我国的算力或许没有美国多,但是真要认真比,那也绝对没啥大差别,弄不好还能压一头,要对我国算力的库存有一定信心,也要对中国的社会的资金要有一定信心。

那么如果不是算力,那能是算法吗?

估计也不是,算法deep learning这东西有些玄幻,有些炼丹,但是不要忘记,几乎所有的AI论文、AI模型、相关的技术都是开源的,是免费的,是公开的,即使最后的chatgpt3.5还是4.0没公开论文但是有了之前的所有公开的技术和文档,这方面也绝对不是差距。

那就只有一个原因了,那就是数据。

我们要知道,虽然中国人很多,中国的汉语文字也很多,但是你要知道全世界说的最多的语言还是英语,全世界的主要的科技文档、社会学、医学文档都是用英文撰写的,几乎所有的自然语言的语料库也都是英文的,世界上的视频、文字等等电子化的资料也都是英文为主的,虽然中文我们有14亿人,但是你要知道,除了中国以外几乎大部分的这个地球上的人可都是在用英语的,这就是现实情况。而且最愁人的还有,那就是几乎所有的NLP的研究也都是以英文为主的,那你说在这个大背景之前我们搞的AI模型的这个中文语料库怎么和美国的那些人比,而且这里面我们还要考虑到语言特性,比如英文的表达更偏向形式表达,而中文的表达更偏向于联想表达,中文的表达信息量更大也更能处理和表达,而且在这之上再加上语料库的资源的不足和质量有限的问题,所以采用了这个NLP方面的AI模型表现的差距。

说这个“对话生成的系统”可能很多人不理解这个语料和语言本身的差距,那么我们还可以看看这个copilot,要知道世界上的绝大部分代码都是保存在GitHub上的,虽然我国有gitee,但是但凡是搞IT的估计也都是知道的,这个GitHub和Gitee根本就不是一个量级,在我看来这二者之间至少差了两个数量级,不论是资金、代码资料还是代码数,还是用户数,都是两个数量级的差距,甚至还不止,弄不好能有3到4个数量级,1万倍的差距。那么在这么大的差距之前,我们又怎么可能在这种数据资源上训练出和美国AI相匹敌的算法模型呢,所以在我看来,在我们的基础数据有着这么大的差距的情况下,我们的模型还能取得和美国AI模型性能相当的表现,这并不能说明我国的AI领域不行,而是说明我们的AI领域要远远强于美国。这就相当于什么,这就相当于当年打抗美援朝战争那样,我们用低端武器把美国的那些高端武器的军队挡住了,那不是平手,那就是战胜。

国产AI模型和美国顶级AI模型的距离在哪?—— 算力?算法?数据?的更多相关文章

  1. Meta AI 开源万物可分割 AI 模型(SAM)

    开始 4 月 6 日,根据 Meta AI 官方博客,Meta AI 宣布推出了一个 AI 模型 Segment Anything Model(SAM,分割一切模型).据介绍,该模型能够根据文本指令等 ...

  2. SPSS分析技术:无序多元Logistic回归模型;美国总统大选的预测历史及预测模型

    SPSS分析技术:无序多元Logistic回归模型:美国总统大选的预测历史及预测模型 在介绍有序多元Logistic回归分析的理论基础时,介绍过该模型公式有一个非常重要的假设,就是自变量对因变量多个类 ...

  3. 一个AI产品经理怎么看AI的发展

    一个AI产品经理怎么看AI的发展 https://www.jianshu.com/p/bed6b22ae837 最近一直在思考这个问题,人工智能接下来的几年会有什么样的发展,是否真的能够在很多工作岗位 ...

  4. AI:从游戏引擎--到AI

    原文链接:http://blog.csdn.net/left_la/article/details/6358911#t9 这是我在Gameres上看到的一篇文章,文章很长,全文分为11个部分,看后感觉 ...

  5. 树状结构Java模型、层级关系Java模型、上下级关系Java模型与html页面展示

    树状结构Java模型.层级关系Java模型.上下级关系Java模型与html页面展示 一.业务原型:公司的组织结构.传销关系网 二.数据库模型 很简单,创建 id 与 pid 关系即可.(pid:pa ...

  6. OSI七层协议模型、TCP/IP四层模型和五层协议体系结构之间的关系

    一.OSI七层模型 OSI七层协议模型主要是:应用层(Application).表示层(Presentation).会话层(Session).传输层(Transport).网络层(Network).数 ...

  7. TCP/IP四层协议模型与ISO七层模型

    TCP/IP四层协议模型与ISO七层模型 在世界上各地,各种各样的电脑运行着各自不同的操作系统为大家服务,这些电脑在表达同一种信息的时候所使用的方法是千差万别.就好像圣经中上帝打乱了各地人的口音,让他 ...

  8. 简述OSI七层协议模型、TCP/IP四层模型和五层协议之间的关系

    一.OSI七层模型 OSI七层协议模型主要是:应用层(Application).表示层(Presentation).会话层(Session).传输层(Transport).网络层(Network).数 ...

  9. 网络基础:OSI 七层模型、TCP/IP 四层模型

    1.Internet历史 1. 1968年由美国ARPA机构提出"资源共享计算机网络”,让ARPA的计算机互联起来,叫做阿帕网;2. 1974年,第一个TCP协议详细说明发布了.3. 一个 ...

  10. [Algorithm & NLP] 文本深度表示模型——word2vec&doc2vec词向量模型

    深度学习掀开了机器学习的新篇章,目前深度学习应用于图像和语音已经产生了突破性的研究进展.深度学习一直被人们推崇为一种类似于人脑结构的人工智能算法,那为什么深度学习在语义分析领域仍然没有实质性的进展呢? ...

随机推荐

  1. String Record

    T1. P5840 算法:ACAM+BIT+树链剖分 自然地,我们会对 \(s_i\) 建 ACAM,然后建出一颗 fail 树. 此时我们考虑集合内加入一个新的字符串.每一个匹配到的点我们都会给从这 ...

  2. 使用优启通 制作 WIN PE U盘时报BOOT.WIM 有毒的解决方法

    使用优启通 制作 WIN PE U盘时报BOOT.WIM 有毒的解决方法 1.打开"Windows Defender". 2.点击"病毒和威胁防护". 3.点击 ...

  3. 如何发现及处理 MySQL 主从延迟问题

    在 Percona MySQL 支持团队中,我们经常看到客户抱怨复制延迟的问题.当然,这对 MySQL 用户来说并不是什么新鲜事,多年来我们在 MySQL 性能博客上发表过一些关于这个主题的文章(过去 ...

  4. 《Android开发卷——HTTP网络通信,HTTP网络连接》

    为了访问互联网,需要设置应用程序获取"androd.permission.INTERNET"权限的许可. 一.使用Apache接口(org.apache.http)并实现网络连接的 ...

  5. 『手撕Vue-CLI』自动安装依赖

    开篇 经过『手撕Vue-CLI』拷贝模板,实现了自动下载并复制指定模板到目标目录.然而,虽然项目已复制,但其依赖并未自动安装,可能需要用户手动操作,这并不够智能. 正如前文所述,我们已经了解了业务需求 ...

  6. 制作tomcat镜像

    本篇文章介绍用Dockerfile的方式构建Tomcat镜像,请保证安装了Docker环境. 首先创建/opt/tomcat目录,后续步骤都在该目录下进行操作. 准备好Jdk和Tomcat安装文件,放 ...

  7. 蚁群算法及 TSP 问题上的应用

    群智能(Swarm intelligence) 自然界动物群,称之为群. 群的特征: 相互作用的相邻个体的集合 个体的行为简单,既有竞争又有协作 智能化的集体行为(1+1>2): 个体间不仅能够 ...

  8. 云服务器通过内网穿透的方式ssh访问内网服务器

    云服务器通过内网穿透的方式ssh访问内网服务器 背景 买了一台云服务器,了解到可以通过外部服务器连接到公司内部服务器. 为了加快办公的效率,配置了一下. 以Ubuntu为例. 原文(有删改):http ...

  9. Freertos学习:05-内核控制

    --- title: rtos-freertos-05-kernel-control date: 2020-06-22 11:10:19 categories: tags: - kernel - fr ...

  10. 川普真会说中文?连嘴型都同步,VideoReTalking AI数字人下载介绍

    你能想到这种画面吗?霉霉在节目中用普通话接受采访,特朗普在老家用中文脱口秀,蔡明老师操着一口流利的英文调侃潘长江老师.. 这听起来似乎很魔幻,可如今全部由VideoReTalking实现了 你只需要传 ...