AlphaGo设计师黄士杰:“最强的学习技能在人类的脑袋里”

深度学习和强化学习结合看来才能解决彩票预测的问题

可以这么说,AlphaGo的成功就是深度学习与强化学习的胜利,因为两者结合在一起,建构判断形式的价值网络(Value Network),后来也成为AlphaGo Zero的主要理论。

虽然我们最终赢了,但这一盘棋确实有很大的弱点,如果五盘棋内,有20%的错误率,这样的AI系统,你敢用吗?所以我们决定,一定要把这个弱点解决掉,不只是解决第四盘的问题,是要把AlphaGo项目全面解决。

后来过了三个月,我们就把弱点解掉了。怎么做到的?还是采用深度学习和强化学习的方法,并不是用人类知识的方法。第一,我们加强AlphaGo的学习能力,所谓学习能力就是把网络程度加深,从第一篇论文的13层加深到40层,而且是改成ResNet。第二个改变是,把策略网络和神经网络结合,让AlphaGo的直觉和判断一起训练,使两者更有一致性。这个解决后的版本,就是Master。

我那段时间一直说服团队,要带Master上线下棋测试棋力,不要等到Master完全无敌后才下棋。2016年年底,我回到台湾,当时特别低调,在线上中文围棋网站奕城和野狐申请了帐号,偷偷当职业棋士下棋。12月29号开始,我关在自己的房间里测试Master,一盘棋下一小时,一早下三盘棋,然后吃饭,下午继续,晚上吃完饭再继续,非常累,到晚上眼睛都张不开。

我还记得一开始在奕城下棋,没人要跟经验值为零的我对弈,直到第二天邀约才陆续上门,到了第三天,还愈来愈多人观看。那时压力很大,很怕自己点击错误或是网络连线断掉,AlphaGo不能因为我而输掉阿。
我到现在还是很感谢那些曾经和Master对弈的棋手。原本想低调比赛,但后来没办法,确实是每一盘都赢、每一盘赢的都是巨大的优势。这当中,柯洁算是唯一一位可以跟AlphaGo比赛坚持最久的。

我们在初期预设AlphaGo Zero绝对不可能赢Master。围棋被研究了几千年,一个程序只知道棋盘和规则,一切从零开始,怎么可能会超越几千年的围棋历史?但我们错了,40天的训练后,AlphaGo Zero超越了Master,我们非常意外,深度学习和强化学习的威力太大了。

AlphaGo Zero是从乱下开始,找出围棋的下法,它只用了三天,走过了人类研究围棋的千年历程。这也是有趣的地方,人类几千年的累积,跟科学研究是一致的。

=========================

没有人会否认,AlphaGo在过去一年炒热全球对人工智能的关注。

2016年3月,谷歌Deepmind旗下的围棋程序AlphaGo,以4比1的成绩战胜韩国职业棋手李世石。一年后,拿掉所有人类知识、完全靠自学的AlphaGo Zero,在今年10月又以100比0的战绩碾压“AI前辈”AlphaGo。从击败人类、到自学成材,AlphaGo的进展超乎预期,研发团队也自然成为关注焦点。这当中,被称为AlphaGo的“人肉手臂”,替AlphaGo向棋圣聂卫平说“谢谢聂老师”的黄士杰(Aja Huang),就是AlphaGo发展的重要推手。

1978年出生、现任Deepmind资深研究员的黄士杰,私底下是围棋业余六段,在每一场人机对战中,都代表AlphaGo落子。但他不只是手脚,更贴近他身分的描述,其实是AlphaGo的设计者、是AlphaGo的大脑。让AlphaGo登上科学期刊《自然》(Nature)封面的那篇知名论文,黄士杰并列为第一作者。

2017年11月10日在台湾中研院举办的“2017年人工智慧年会”上,黄士杰首次把AlphaGo的研发过程公开说清楚,除了透露新一代AlphaGo Zero的能力还没达到极限,他更多的是去分享身为一名科学家,旁观机器的进步,以及一个科学团队对基础研究的使命和专注。

AlphaGo的研发过程,有四个时刻对我影响很大。

第一,是我们在韩国赢了李世石。当我们开始做AlphaGo时,没想到它会变得那么强。在韩国赢了李世石后,DeepMind首席执行官Demis Hassabis立刻发了一个推特,说“我们登上月球”(We landed it on the moon.)。我明白Demis那天的感觉,这是我们团队的一小步,但却是人类的一大步。

第二个时刻,是我在网络上操作AlphaGo升级版“Master”,下了60盘棋。我从小喜欢下棋,在台湾是业余六段。Master在网络上对弈的对象,都是我从小崇拜的人。虽然不是我真正在下棋,但却感到非常荣幸。

第三个时刻,是今年在乌镇进行的人机大战,由我操作AlphaGo和世界冠军柯洁九段下棋。柯洁还不满20岁,非常年轻,当天比赛氛围和李世石对弈时很不同。我记得在韩国比赛,能感受到李世石承受到很大的压力,感觉他是在为人类而战。我当时坐在他对面,也尽量保持谨慎的态度,不喝水、不去上洗手间。但到了第二次和柯洁对弈,比较像是人机合作的气氛,柯洁还走过来说:“黄博士,很荣幸跟AlphaGo下棋”,坦白说我有点惊讶。这也让我们知道,如果Master是无敌的,那机器存在价值到底在哪里?应该是要帮助棋手扩张思路、扩展围棋理论。

第四次对我意义重大的时刻,是AlphaGo Zero的出现。什么是AlphaGo Zero?我们拿掉所有人类对围棋的知识,只喂AlphaGo Zero围棋规则,让它自己学习下棋。我回想起读博士班的熬夜日子,就是不断写代码、找bug,每天做测试,让程序进步。

但AlphaGo Zero把我过去的所有东西全部取代,它完全不需要我的帮助。有同事问我,Aja,AlphaGo Zero把你这十几年来对围棋计算机的研究,一点一点的拿掉,甚至还超越你,有什么感觉?我的确心情复杂,但后来跟同事说,这会是一个趋势,如果我阻碍了AlphaGo,我确实应该被拿掉(笑)。AlphaGo有99%的知识是我做的,AlphaGo能走到这一步,我已经很满足,找到了收尾。

AlphaGo Zero只用三天走过人类的千年历程

在Master之后,我们研究分出两条线,一条是让Master出去比赛,由我来测试,另一条线,则是把所有人类知识拿掉,从零开始学习,看AlphaGo Zero可以达到什么程度。

我们在初期预设AlphaGo Zero绝对不可能赢Master。围棋被研究了几千年,一个程序只知道棋盘和规则,一切从零开始,怎么可能会超越几千年的围棋历史?

但我们错了,40天的训练后,AlphaGo Zero超越了Master,我们非常意外,深度学习和强化学习的威力太大了。

AlphaGo Zero是从乱下开始,找出围棋的下法,它只用了三天,走过了人类研究围棋的千年历程。这也是有趣的地方,人类几千年的累积,跟科学研究是一致的。

AlphaGo Zero前后训练了 40 天,但第 40 天还没有到达其极限,因为我们机器要做其他事情就先停下了。今年四月,我们也发表了AlphaGo Zero的论文,这篇论文的目的,没有想要跟人类知识比较、或是讨论人类知识有没有用等问题,而是想证明机器不需要人类知识也可以拥有很强的能力。

黄士杰认为,未来的人工智能,是要与人类合作,而非跟人类对抗。强人工智能距离我们仍是遥远,而现在最强的学习技能,其实仍在我们的脑袋里

==========================

本人微信公众帐号: 心禅道(xinchandao)

本人微信公众帐号:双色球预测合买(ssqyuce)

AlphaGo设计师黄士杰:“最强的学习技能在人类的脑袋里”的更多相关文章

  1. 人机大战中AlphaGo及其执子人黄士杰

    2016年3月9日注定要写入围棋界的历史.IT界的历史以及科学界的历史.当天,韩国著名围棋棋手李世石VS谷歌AlphaGo的人机大战赛在韩国首尔举行.对弈的一方为拥有1200多个处理器的谷歌人工智能系 ...

  2. 开发升级-微信小程序(感谢黄秀杰老师)

    借助老师的博客 初次认识到了小程序开发的便捷,同时也深刻的感受到了,时代在不断地进步,编译将更加平民化,每一个人都将可以动手创造一款不错的软件 在黄秀杰老师的模板下,同时进行了修改,也在老师的模板下, ...

  3. 也谈谈AlphaGo

    距离AlphaGo击败李世石已经过去数月了,心中的震撼至今犹在,全刊报道此项比赛的<围棋天地>杂志我已经看了不下十遍.总也想说点自己的意见,却也不知道从哪里说起,更不知道想表达些什么. 作 ...

  4. 文笔很差系列1 - 也谈谈AlphaGo

    距离AlphaGo击败李世石已经过去数月了,心中的震撼至今犹在,全刊报道此项比赛的<围棋天地>杂志我已经看了不下十遍.总也想说点自己的意见,却也不知道从哪里说起,更不知道想表达些什么. 作 ...

  5. 从柯洁对战AlphaGo,看商业智能

    [摘要]李开复赛前说,AlphaGo和李世石的人机大战是第一次,可能还有悬念,那今天的AlphaGo已经在围棋的世界中彻底甩开了人类,不再拥有任何其他的可能.并指出,AlphaGo和柯洁的比赛并非没有 ...

  6. <转载>ford-fulkerson算法2

    原文链接https://www.cnblogs.com/luweiseu/archive/2012/07/14/2591573.html 作者:wlu 7. 网络流算法--Ford-Fulkerson ...

  7. 曲率已驱动了头发——深度分析谷歌AlphaGo击败职业棋手

    这篇是我们自开设星际随笔以来写得最长的一篇.我们也花了不少力气.包括把那5盘棋各打了两遍的谱,包括从Nature官网上把那篇谷歌的报告花了200元下载下来研究它的算法(后来发现谷 歌网站上可以免费下载 ...

  8. 阿里AI设计师一秒出图,小撒连连惊呼,真相是...

    近期,央视<机智过人>的舞台上来了位“三超设计师”——设计能力超强:出图能力超快:抗压能力超强,成功迷惑嘉宾和现场观众,更让撒贝宁出错三连. 节目一开场,这位“设计师”就为现场嘉宾:主持人 ...

  9. 为何谷歌围棋AI AlphaGo可能会把李世石击溃

    /* 版权声明:可以随意转载,转载时请标明文章原始出处和作者信息 .*/ author: 张俊林 谷歌DeepMind开发的人工智能围棋程序AlphaGo以5:0的压倒性优势击败了欧洲围棋冠军.专业二 ...

随机推荐

  1. what' the python之面向对象(进阶)

    面向对象的知识点补充(进阶版) classmethod和staticmethod:这两个函数的用途就是可以不用实例化对象就可以调用方法 class Classmethod_Demo(): role = ...

  2. git命令操作的时候,出现中文名显示问题

    方法一:git config --global core.quotepath false 方法二: Windows系统的Git默认是不支持中文显示的,需要进行一系列的设置才能避免乱码的出现,下面总结如 ...

  3. Element-table-formatter格式化数据

    1.formatter  用来格式化内容   对table的值进行处理.Function(row, column, cellValue, index){}   使用formatter需要注意以下几点: ...

  4. ORM之视图层

    1.request对象 前台POST传来的数据,包装到POST字典中request.POST 前台浏览器窗口携带的数据,包装到GET字典中request.GET 前台请求的方式,request.met ...

  5. [py]__name__ 属于哪个文件

    name: 属于哪个文件 文件的 main 类的 class Person(object): """ 定义一个类 """ count = 1 ...

  6. Roslyn编译器

    概要 微软官方开源的C#/VB编译器.作为.net 2015的重要名角,负责将代码编译成IL,另外提供丰富的API用于代码分析,vs2015的实时代码分析就是使用的Roslyn提供的API. C#6. ...

  7. theos第一次编译成功,记录一下

    theos 是github 90444af分支上的,下载设置环境变量 vi /etc/profile. 将/opt/theos/bin加入环境变量 运行nic.pl f 输入11生成工程,一路跳过 最 ...

  8. (已解决)在linux的虚拟机上安装vmware tools(实现windows与虚拟机之间的文件交互复制粘贴)

    Linux下需要安装VMware Tools工具来实现主机和虚拟机直接文件复制粘贴功能,安装方法如下: ①点击虚拟机VM菜单栏--虚拟机--安装VMware Tools. ②然后RedHat系统中弹出 ...

  9. Cocos Code IDE (下载地址)

    Cocos Code IDE 1.2.0 下载地址       Cocos Code IDE 1.2.0 Win32 下载地址: http://www.cocos2d-x.org/filedown/c ...

  10. antlr安装

    安装java环境,环境变量设置如下: ANTLR 简介 ANTLR—Another Tool for Language Recognition,Antlr 本身是使用 Java 开发的,它为包括Jav ...