王亮：游戏AI探索之旅——从alphago到moba游戏

欢迎大家前往腾讯云+社区，获取更多腾讯海量技术实践干货哦~

本文由云加社区技术沙龙发表于云+社区专栏

演讲嘉宾：王亮，腾讯AI高级研究员。2013年加入腾讯，从事大数据预测以及游戏AI研发工作。目前主要从事MOBA类游戏AI相关的研发工作。

今天分享的课题是游戏AI探索之旅。本次分享分为四部分，第一部分，什么是游戏AI，游戏AI为什么对现在的游戏非常重要；第二部分，业界和工业界对于做游戏AI主要的方法，以及现在业界一些主流的游戏上的进展。第三部分，结合基于公司自有的MOBA游戏，分享一下我们做的一些探索研究及现在的进展；第四部分，会简单介绍一下基于深度学习方法来做游戏AI，对于游戏开发者来说需要提供哪些环境便于AI的开发。希望通过今天的分享能给大家之后工作或者接下来学习上带来一些的启发和思考。

什么是游戏AI，对于游戏开发者而言是要增进用户体验，提升游戏玩家的活跃度，方法主要是基于一些人工规则的方式。而对于学术界来说目标是最大化赢的概率，而现在主要是基于学习的方法。

几乎每款游戏都有自己的游戏AI。棋牌类的（深蓝、Alphago）、体育类的足球篮球、角色扮演类游戏……越复杂的游戏对AI的依赖程度越高。AI在游戏中常用的方式：人机对战：AI为游戏提供一种玩法，玩家可以选择与游戏AI对战去熟悉游戏；平衡性测试：辅助游戏设计开发，如：游戏数值改变，AI可以用于验证测试数值变化带来的影响；对于射击类的游戏，AI可以用于探索地图的探索等。

通用的游戏AI的设计,包含三部分: 感知系统、决策系统、导航系统；游戏AI的决策操作基于一定的时间粒度进行循环工作。

接下来介绍一下常用的游戏AI方案，游戏AI常用方法分为三类：1）工业界常用的行为树、有限状态机及势力图，优点：实现逻辑清晰，不足：固定逻辑执行，容易被玩家识破，复杂逻辑难实现； 2） search方法，常用的方法：遗传算法、蒙特卡洛搜索树方法等； 3）基于learning的方法：监督学习算法、强化学习算法；

监督学习算法：基于训练数据，难点是抽象状态环境以及执行操作Action，通常Action的定义直接影响模型的上限；对于复杂游戏来讲，对于状态s很难定义最优的Action操作。

强化学习回避SL中如何确定“正确”A的问题，转而定义reward（例如赢一场比赛reward=10，击杀对方英雄reward=1, 自身死亡reward=-5）；强化学习通常用于序列操作决策问题，对于强化学习来说，特别是复杂游戏，遇到的挑战：1) exploration和exploitation的问题， 2）对于游戏玩法时间较长，如何解决reward delay问题。

谈到游戏AI探索研究，目前很多研究者在星际2上探索，目前星际上AI采用目前最强的StarCraft AI由hard-coded程序和learning程序共同实现，且hard-coded部分占大部分；目前最强的StarCraft AI还不能战胜业余的中上水平。星际游戏较为复杂，通用设计：将AI根据决策时间长短，分为：strategy，tactics， reactive control 进行分层优化。

Alphago掀起了游戏AI的浪潮，它成功超越了人类，它的算法主要由Supervised learning + Reinforcement learning +Monte Carlo tree search三部分组成，它的线下训练需要大量的计算资源。目前DeepMind跟暴雪已经合作开发了一个开放平台，模拟器是非常重要的，如果要做游戏AI相关开发，模拟器是必要的环境，通过模拟器获取数据以及提供一些操作指令能直接操作游戏AI。

今年在游戏界或者在游戏AI行业里最有影响力的就是Dota2了，在5个特定英雄等限制条件下AI能力能够超过90%的玩家(截至2018.6.25)。采用的是强化学习的方法。线下训练所使用的资源远远大于Alphago在围棋上使用的资源：12W＋CPU，256GPU。

接下来介绍我们在MOBA游戏上的AI研究与探索。王者荣耀是一款即时战略游戏，与Dota，LoL是同类型游戏。MOBA游戏特点：注重英雄的操作，英雄设计较为复杂。介绍AI技术方案之前，首先我们来看下做MOBA类游戏难点在哪：

强化学习在围棋上成功的应用，为什么Moba类游戏AI还没有战胜人类的职业选手？以王者荣耀这款游戏来分析，从状态训练空间来看，王者的操作基本是在102000，围棋只有10170。操作序列空间也存在巨大差别，导致计算会非常非常大。

我们再看一下王者荣耀跟围棋存在什么样的差异：从AI的个数上来说，围棋只有一个AI，只需关注黑白子。对于王者来而言却是有多种对战情况的，5V5，3V3，是多个AI的操作。其次就是确定性的问题，下围棋落子即定，不存在下完还可能下不成功的问题。而对于战略性游戏却是非确定的操作，即使发出了技能也有可能被人打断，所以是非确定性的操作。对于状态可观测性，围棋可以看到整体的情况，而王者地图对于玩家而言是部分可见，只能看到友方的视野，这样就会涉及到博弈问题：如何去预测敌方的位置。

接下来我们再看下目标学习问题。目标学习是非常重要的，首先需要解决每个英雄要去哪里的问题，对每个英雄或者对每类英雄要去的位置和出场是不一样的。其次就是选目标的问题：游戏中有七十多个英雄，每一局英雄可能不一致，如何解决英雄不一致的问题？因为AI学的是用户的操作，每个英雄技能设计不一样，有的是方向型的技能，有的是指向型技能，有的是位置型技能。

第三个难点是知识表达的问题。如果对于一个复杂英雄如：露娜，李白，玩家没有熟悉一百场练习很难熟练操作这复杂英雄。露娜无限连怎么打，关羽的无限推，李白四字真言，诸葛亮大招躲避。另外每个英雄有一些技能状态变化的设计，例如说花木兰，它的技能会随着三技能的变更，前两个技能效果也会变。这些如何表示？对于人来说是游戏常识，难点在于对于AI如何进行表达。

对于遇到的主要问题我们的解决方案：第一是引入框架进行分层，任务分层场景切分。对于知识表达，引入了多模态的特征表达方式：卷积特征+向量特征+ 时序特征；模型采用多深度学习模型结合

接下来介绍下王者AI的主要技术解决方案。框架设计主要包含两大组成部分：游戏分析和策略模块。游戏分析模块主要包含：英雄搭配问题，装备策略的分析等。策略执行模块用以解决：接下来去做什么，到达对应地点后如何进行对战的问题。

大局观设计，大局观是解决下一时刻位置问题。具体来说对于英雄它下一次的热点在哪里？下一次的战斗位置在哪儿？或者它下一次蹲草丛在哪个位置。微操的设计，微操解决的是场景发生战斗的问题。我们特征采用多模态方式组织：位置相关信息通过imagelike特征组织，属性信息通过向量特征表征，采用深度学习的Multi-task模型。

整体来说随着强化学习，深度学习方向进展，以前主要是基于规则，现在主要是基于学习方式来研究AI。如果采取基于学习的方式研究AI对于开发者而言需要提供相关的环境便于开发者进行迭代调试。总而言之，MOBA类游戏AI研发遇到很多困难与挑战，但也充满了机会。这是今天的分享，谢谢大家。

问答

AI如何赋能物流？

相关阅读

叶聪：朋友圈背后的计算机视觉技术与应用

冀永楠：OCR的应用锦集及背后技术

吴琛：智慧工地——履约考勤系统的应用实践

云学院 · 课程推荐 | 腾讯顶级技术专家，与你分享小程序开发经验

此文已由作者授权腾讯云+社区发布，原文链接：https://cloud.tencent.com/developer/article/1189695?fromSource=waitui

搜索关注公众号「云加社区」，第一时间获取技术干货，关注后回复1024 送你一份技术课程大礼包！

海量技术实践经验，尽在云加社区！

王亮：游戏AI探索之旅——从alphago到moba游戏的更多相关文章

趣说游戏AI开发：对状态机的褒扬和批判
0x00 前言因为临近年关工作繁忙,已经有一段时间没有更新博客了.到了元旦终于有时间来写点东西,既是积累也是分享.如题目所示,本文要来聊一聊在游戏开发中经常会涉及到的话题--游戏AI.设计游戏AI的 ...
【C语言探索之旅】第三部分第二课：SDL开发游戏之创建窗口和画布
内容简介 1.第三部分第二课: SDL开发游戏之创建窗口和画布 2.第三部分第三课预告: SDL开发游戏之显示图像第三部分第二课:SDL开发游戏之创建窗口和画布在上一课中,我们对SDL这个开源库做 ...
【C语言探索之旅】第三部分第一课：SDL开发游戏之安装SDL
内容简介 1.课程大纲 2.第三部分第一课: SDL开发游戏之安装SDL 3.第三部分第二课预告: SDL开发游戏之创建窗口和画布课程大纲我们的课程分为四大部分,每一个部分结束后都会有练习题,并会 ...
【C语言探索之旅】第二部分第九课：实战"悬挂小人"游戏答案
内容简介 1.课程大纲 2.第二部分第九课: 实战"悬挂小人"游戏答案 3.第二部分第十课预告: 安全的文本输入课程大纲我们的课程分为四大部分,每一个部分结束后都会有练习题, ...
【C++探索之旅】开宗明义+第一部分第一课：什么是C++？
内容简介 1.课程大纲 2.第一部分第一课:什么是C++? 3.第一部分第二课预告:C++编程的必要软件开宗明义亲爱的读者,您是否对C++感兴趣,但是C++看起来很难,或者别人对你说C++挺难的, ...
【Linux探索之旅】开宗明义+第一部分第一课：什么是Linux？
内容简介 1.课程大纲 2.第一部分第一课:什么是Linux? 3.第一部分第二课预告:下载Linux,免费的噢! 开宗明义我们总听到别人说:Linux挺复杂的,是给那些追求逼格的程序员用的.咱 ...
对弈类游戏的人工智能(5)--2048游戏AI的解读
前言: 闲得没事, 网上搜"游戏AI", 看到一篇<<2048游戏的最佳算法是?来看看AI版作者的回答>>的文章. 而这篇文章刚好和之前讲的对弈类游戏AI对 ...
【C++探索之旅】第一部分第三课：第一个C++程序
内容简介 1.第一部分第三课:第一个C++程序 2.第一部分第四课预告:内存的使用第一个C++程序经过上两课之后,我们已经知道了什么是编程,编程的语言,编程的必要软件,C++是什么,我们也安装了适 ...
【C语言探索之旅】第二部分第二课：进击的指针，C语言的王牌！
内容简介 1.课程大纲 2.第二部分第二课: 进击的指针,C语言的王牌 3.第二部分第三课预告: 数组课程大纲我们的课程分为四大部分,每一个部分结束后都会有练习题,并会公布答案.还会带大家用C语言 ...

随机推荐

HTML5、CSS3与响应式Web设计入门(2)
HTML5的宽泛含义开拓了Web开发的视野,增加了开发方案的多样性,同时也带给很多Web开发者不小的困惑,就是HTML5在涉及到Web某个应用领域的开发时,到底代表了什么?本篇文章的目的就在于跟大伙 ...
多次grep 没有看到输出
tail -f xxx.log | grep aaaa | grep bbbb 发现没有日志输出但log中的那条记录包含aaaa 和 bbbb,就是说tail -f xxx.log | grep ...
C#中Cookies的读取
C#中Cookies的读取链接: 一 .写入Cookie 1. Name 和 Value 属性由程序设定,默认值都是空引用. 2. Domain属性的默认值为当前URL的域名部分,不管发出这个c ...
RabbitMq初探——消息确认
消息确认机制前言消息队列的下游,业务逻辑可能复杂,处理任务可能花费很长时间.若在一条消息到达它的下游,任务刚处理了一半,由于不确定因素,下游的任务处理进程被kill掉啦,导致任务无法执行完成.而 ...
深入了解java虚拟机（JVM）第十章字节码指令
一.字节码指令的含义 Java字节码指令由一个字节长度的,代表某种特定操作含义的数字(操作码)以及其后的零至多个代表此操作所需参数(操作数).此外字节码指令是面向操作数栈的,这里操作数栈在功能上对应实 ...
Make ISO安装ArchLinux加Cinnamon
Arch安装一直对大家对普通用户来說一直很难.国外大神为Arch安装进行了优化提供了更方便的安装方式官网:http://www.evolutionlinux.com/ 以下爲个人理解,供大家参考. ...
Java 自定义注解与注解解析实例
在学习Java之后会遇到很多的注解,有加载JavaBean的注解:@Component,@Service,@Controller:有获取配置文件中数值的注解@Value:有获取Http请求的数据的注解 ...
考试题 T1
题意分析就是让你求 \[\sum_{i=1}^{|S|}val[i][gcd(a[i],x)=y]\] 那么接下来就是化简式子 \[\sum_{i=1}^{|S|}val[i][gcd(\frac{ ...
JavaScript DOM编程艺术笔记（四）
DOM document object model(map) 家谱树---节点树父子兄弟元素节点 <div> 文本节点内容属性节点 value src getE ...
性能测试 vs 负载测试 vs 压力测试
在做一些软件测试工作时,常常会被提及性能测试.负载测试.压力测试,这也是在软件测试方面最容易混淆的三个概念.之前和一个测试大牛聊天,他和我说常常面试一些测试人员会问一些这样的问题,大多人认为负载测试等 ...

王亮：游戏AI探索之旅——从alphago到moba游戏

问答

相关阅读

王亮：游戏AI探索之旅——从alphago到moba游戏的更多相关文章

随机推荐

热门专题