TOP100summit2017:Riot Games 李仁杰——大数据落地要找到数据和经验的平衡点
壹佰案例:李仁杰老师您好,很荣幸您能参加第六届TOP100全球软件案例研究峰会,您在大数据和人工智能领域有非常丰富的经验,在这次大会上您将分享什么内容?
李仁杰:这次我主要分享的有两个方面。
一个是以Riot Games数据团队五年的心路历程为主线,介绍如何从零到有建立一支国际一流的大数据团队, 每年团队的工作和vision如何成长和进化,以及这其中的收获和走过的弯路。
另一个是以每年精选一个case study为副线,介绍全球最受欢迎的PC游戏《英雄联盟》是如何用数据来提高玩家的体验,支持和帮助公司每一个部门的商业决策和运营计划,以及如何用机器学习和人工智能来颠覆传统的产品。
壹佰案例:《魔兽世界》、《英雄联盟》这些游戏我们都非常熟悉了,您在暴雪和Riot Games所领导的大数据部门主要的工作职责是什么?
李仁杰:我们的数据部门主要负责三个部分。
第一个是data infrastructure - 数据底层的架构,保证每个人有快速、足够和正确的数据使用;
第二个是data informed decision making,用数据来帮助每一个部门做更好的决策;
第三个是data powered products - 开发基于数据的机器学习和人工智能产品。
壹佰案例:利用大数据来支持和帮助其他部门的商业决策和运营计划,这是很多公司都在探索的方式,但是在实践过程中常常发现数据成为支撑结论的论据,而不是由数据直接推导出来论点,对于这一点您有什么看法?
李仁杰:非常好的问题。数据是把双刃剑。一方面,它客观而真实,可以纠正我们很多的偏见与狭隘的观点。另一方面,它只能描述过去,如果一件事情在过去从来没有发生过,那么数据就无计可施了。
举个例子,数据无法告诉我们怎么创造出iPhone,但是可以帮助我们一步步地提升iOS操作系统。换句话说,如果决定都用数据来做,数据可以找到局部的最优解,但是没有办法攀登全局的最高峰。
正因为如此,我们才提出要data-informed, 而不是data-driven。在用数据帮助商业决策和运营计划时,不能只用数据,还要加入其它的因素,经验、影响、反馈,甚至直觉。怎么用数据不是最关键,找到"用数据"和"用经验"的平衡点才是最关键。
壹佰案例:大数据和人工智能是两个非常有发展潜力的领域,那么现在在游戏行业,大数据除了用于指导决策,还可以应用在哪些方面呢?
李仁杰:还有非常大的一块是开发和数据/机器学习/人工智能相关的产品来提高玩家体验。而且我们觉得这个实际上是数据和数据科学家能为我们的玩家带来最大价值的地方。比如,我们用自然语言处理的技术来训练机器自动阅读人类的聊天记录,从而判断是否有过激行为。
现在使用机器学习的自动化系统已经完全取代了之前的人工审判庭系统,支持17种不同的语言,不仅大幅提高准确性,还把探测时间从几个星期缩短到了几分钟,从而可以立即给予玩家反馈。我们还开发了个性化推荐引擎来帮助玩家找到可能喜欢的英雄和皮肤。我会在talk里分享更多其他的机器学习产品和细节。
壹佰案例:您觉得目前国内大数据行业的发展与美国相比有什么优劣势?
李仁杰:我觉得国内大数据行业的发展兴兴向荣,几乎各行各业都在使用数据和开始更关注数据,而且也有非常多的及其有潜力的创业公司在不断的涌现出来。昨天习大大十九大的未来50年战略里还提到了互联网和大数据,让人很激动和自豪。
还需要提高的地方是:1)媒体的过度解读和吹捧;2)很多公司重视数据,但是没有关注数据人才的培养和迭代;3)家长式的管理和过分关注KPI限制了数据的创造性和想象力。
壹佰案例:现在大数据和人工智能领域的优秀人才非常稀缺,您觉得从事大数据相关工作除了技术上的能力外,还需要哪些能力?
李仁杰:在Riot Games,我们把数据科学家昵称为“德鲁伊” (西方游戏设定里经常出现的一种可变身职业)。我们认为一个数据科学家需要在面对不同的问题时变化不同的角色。
他/她先是一个consultant,需要一流的沟通技巧和problem solving能力,来和产品经理/设计师等交流,收集他们的需求,很多时候更重要的是帮他们重新定义他们的需求,并把一个商业或者产品问题转化成数据问题。
然后是一个modeler, 从数据库里pull数据,分析数据,建模,测试,迭代。
再是一个engineer, 因为你需要和工程师一起合作,有时候甚至自己solo来把你的模型加入到production system,变成最后面向玩家的产品。
最后他/她还是一个artist,因为需要用简单明了的语言和图表来present你的工作,提高visibility,并且把复杂的算法用浅显易懂的方式让不懂数据或者非技术的人也能明白,并且了解数据带来的改变。
壹佰案例:由于大数据发展迅速,很多公司都在抢人,您在Riot Games组建的大数据部门是怎么做到五年0流失率的呢?
李仁杰:首先Riot有着超一流的文化,在这里我们都是游戏爱好者,志同道合,抱着同一个愿景,就是为我们的玩家创造价值。
其次数据部门及其扁平,甚至很多时候是自下而上。每个人的优势不同,想要的职业发展也不同,我们一直尽最大的努力保证每个人所在的项目和个人兴趣,职业发展以及能给玩家带来的最大价值相匹配。
同时,我们也把自己的部门当做start up来运营,每一年我们都在成长,进化,挑战自己,做不同的事情。
0流失率的记录一定有一天会被打破,当那一天到来的时候,我们全组的人一定都会为离开的同学感到开心,因为他/她一定找到了一个更能发挥个人价值的地方。
壹佰案例:您认为对大数据团队的领导者来说,最重要的素质是什么?
李仁杰:我个人的看法,不只局限于大数据团队的领导者,要做到:
真诚透明,将心比心
眼光长远,挑战传统
严于律己,主动担责
容人之异,充分授权
11月9-12日 北京国家会议中心,李仁杰老师将分享《The Science behind Art - Five Years Journey of Data Team at Riot Games》,现场解读大数据团队的管理内核及成长进化路径,以及大数据在游戏和用户体验中的产品和应用。
TOP100summit2017:Riot Games 李仁杰——大数据落地要找到数据和经验的平衡点的更多相关文章
- HBase 入门笔记-数据落地篇
一.前言 关于数据落地方面,HBase官网也有相关介绍.本文主要介绍一下实际工作中涉及的数据存储方面的一些经验和技巧,主要涉及表rowkey设计.数据落地方案 二.表设计 相对于MySQL等关系型数据 ...
- (转)【重磅】无监督学习生成式对抗网络突破,OpenAI 5大项目落地
[重磅]无监督学习生成式对抗网络突破,OpenAI 5大项目落地 [新智元导读]"生成对抗网络是切片面包发明以来最令人激动的事情!"LeCun前不久在Quroa答问时毫不加掩饰对生 ...
- 破局AI落地难,数据标注行业需率先变革丨曼孚科技
2019年,国内人工智能领域的投融资热情大幅降低,相当数量的AI企业彻底消失在了历史的长河中,“人工智能寒潮已至”甚至成为行业年度热词. 与前几年创业与投资热情齐头并进的盛况相比,近段时间的AI行业 ...
- 面试问题2:给一个5G的大文件,保存的数据为32位的整型,找到所有出现次数超过两次的数字
问题描述:给一个5G的大文件,保存的数据为32位的整型,找到所有出现次数超过两次的数字 大数据操作: 解决方法一: 依次遍历文件数据, 开始32二进制清0 每次读取一个数,先和二进制位与,如果为0 则 ...
- 分享工作中遇到的问题积累经验 事务日志太大导致insert不进数据
分享工作中遇到的问题积累经验 事务日志太大导致insert不进数据 今天开发找我,说数据库insert不进数据,叫我看一下 他发了一个截图给我 然后我登录上服务器,发现了可疑的地方,而且这个数据库之前 ...
- ECharts – 大数据时代,重新定义数据图表
ECharts 基于 Canvas 的纯 Javascript 图表库,提供直观,生动,可交互,可个性化定制的数据可视化图表.创新的拖拽重计算.数据视图.值域漫游等特性大大增强了用户体验,赋予了用户对 ...
- discuz论坛apache日志hadoop大数据分析项目:清洗数据核心功能解说及代码实现
discuz论坛apache日志hadoop大数据分析项目:清洗数据核心功能解说及代码实现http://www.aboutyun.com/thread-8637-1-1.html(出处: about云 ...
- C#实现大数据量TXT文本数据快速高效去重
原文 C#实现大数据量TXT文本数据快速高效去重 对几千万的TXT文本数据进行去重处理,查找其中重复的数据,并移除.尝试了各种方法,下属方法是目前尝试到最快的方法.以下代码将重复和不重复数据进行分文件 ...
- Oracle impdp通过network_link不落地方式导入数据
--Oracle impdp通过network_link不落地方式导入数据 -----------------------------------------------------2014/01/1 ...
随机推荐
- web,xml中关于filter的使用
从J2EE1.3开始,Servlet2.3规范中加入了对过滤器的支持.过滤器能够对目标资源的请求和响应进行截取.过滤器的工作方式分为四种,下面让我们分别来看看这四种过滤器的工作方式:1.request ...
- 【RS】Factorization Meets the Neighborhood: a Multifaceted Collaborative Filtering Model - 当因式分解遇上邻域:多层面协同过滤模型
[论文标题]Factorization Meets the Neighborhood: a Multifaceted Collaborative Filtering Model (35th-ICM ...
- 谈谈MySQL死锁 一
数据越来越和我们的生活离不开,数据在生命周期的各个阶段有着不同的痛点和需求以及特殊场景. CURD是数据的四大基本需求:写入,更新,读取,删除. 今天,来谈一谈死锁问题 死锁是高并发下MySQL不可回 ...
- spring-mybatis-data-common程序级分表操作实例
spring-mybatis-data-common-2.0新增分表机制,在1.0基础上做了部分调整. 基于机架展示分库应用数据库分表实力创建 create table tb_example_1( i ...
- 11G新特性 -- Result Cache
共享池存放sql语句的解析和编译版本,以便数据库能快速执行频繁执行的sql语句和plsql. 在11g中,数据库使用result cache来存放sql和plsql的执行结果. result cach ...
- CSS中的继承
继承:子元素继承父元素的样式,但是并不是所有属性都是默认继承的. 通过文档中的 inherited:yes 来判断属性是否可以继承,关于继承可以参见css的继承关键字: 一.无继承性的属性 1.dis ...
- SQL数据类型和C#数据类型间的转换
今天看到SQL数据类型和C#数据类型间的转换,前人留下的. <?xml version="1.0" encoding="utf-8" ?> < ...
- 0x02 Spring Cloud 学习文档
每个Spring项目都有自己的; 它详细解释了如何使用项目功能以及使用它们可以实现的功能. Spring Cloud 版本 参考文档 API文档 Finchley SR2 CURRENT GA Ref ...
- 每天一个linux命令(8):scp使用
不同的Linux之间copy文件常用有3种方法:1.使用ftp,也就是其中一台Linux安装ftp Server,这样可以另外一台使用ftp的client程序来进行文件的copy.2.采用samba服 ...
- oracle中decode的用法(例子)
使用结构: decode(条件,值1,返回值1,值2,返回值2,...值n,返回值n,缺省值) 该函数的含义如下: IF 条件=值1 THEN RETURN(翻译值1)ELSIF 条件=值2 THEN ...