4月27日,在2021 N.Game网易游戏开发者峰会的程序论坛上,网易互娱AI Lab技术总监林悦带来《当游戏遇见AI》的主题演讲。
网易互娱AI Lab一直致力于运用计算机视觉、语音处理、自然语言处理、强化学习等技术,提高游戏的资源制作效率,丰富游戏体验,促进游戏的精细化运营。此次演讲,他分享了网易是如何在游戏上运用这些AI技术来提升效率和体验的。
以下是演讲实录:
大家好,我是来自网易互娱AI Lab的林悦,很荣幸今天可以在这里给大家做一个技术分享。今天我的题目是《当游戏遇见AI》,介绍的是我们网易互娱AI Lab是如何利用AI技术赋能游戏研发和运营的。
AI与游戏一直都是密不可分的。在1952年科学家们已经利用AI技术探索如何让机器打败人,最近在围棋界搅动风云的AlphaGo、AlphaZero,以及在星际争霸中扬威的AlphaStar,这些机器人的最终目标其实都是为了击败职业玩家,从而证明AI的决策能力和计算能力。
而实际上,除了游戏AI这个方向,人们也发现像2D、3D的视觉技术,以及语音处理、自然语言处理等其他一些AI技术,也是可以在游戏领域给玩家带来更好的体验的,这也将是AI技术更大的价值所在,网易互娱AI Lab从成立以来就一直致力于把AI赋能于游戏,把技术落地。
这里列的也是我们在游戏领域应用方面的一些落地的思考和洞见,从美术资源制作到游戏体验优化,再到运营和营销,AI能够在游戏的各个领域赋能,帮助降低开发的成本,大幅提高生产的品质和效率,我们希望通过领先的AI技术,推动产业的技术革新,为游戏行业带来新的破局点。
探索AI技术,降低研发成本
网易互娱AI Lab成立的主要目标就是降低游戏的研发成本,因为现阶段游戏研发的成本是非常高的,我们做了许多降低成本的尝试和探索,下面就给大家介绍一些具体的实践场景。
首先我们在这里介绍的是语音驱动嘴型动画技术,因为游戏内容对于角色人设是非常看重的,需要通过大量的剧情动画来完善整个角色的人设。
为了让角色栩栩如生,游戏公司可能会需要给这个角色录制大量的声优对白,然后当这个游戏里的角色念这些对白的时候,策划也是希望角色能有相应的面部表情和正确的嘴型。
但是这种嘴型以及面部表情的制作成本是非常高的,目前AI的技术已经可以做到根据语音生成相应的表情和嘴型的动画,从而大大提高美术在制作这些剧情动画时候的效率,降低了制作的成本。
这个技术目前已经在网易非常多的游戏里面落地了,像已经上线的《梦幻西游三维版》《哈利波特:魔法觉醒》《时空中的绘旅人》以及《神都夜行录》等等,下面我们以《哈利波特:魔法觉醒》的一个例子来看。通过这个例子,大家可以大概了解这个技术实际在游戏里面的一个体现。
目前这个技术可以支持不同的引擎,像我们自研的弥赛亚、NeoX引擎,还有一些其他的商用引擎。已经能够支持非常多的语言,像中、日、英、韩语等,无论是说话还是歌唱,这个技术也可以完美地去对齐整个嘴型以及生成相应的表情。另外,我们同样可以处理没有对应的语音文本的情况,一样可以生成对应的嘴型动画的。
最后就是针对不同的游戏类型,像二次元、写实、古风等等,不同游戏的风格所对应的嘴型也能生成一个比较好的效果。这里简单的介绍一下背后的一个技术。
首先我们需要去制作一些相应的嘴型的模板,根据不同的语言,这些模板的需求是不太一样的,在实际使用的时候,我们可以同时输入语音以及这段语音对应的文本。通过语音识别的技术,我们先会按帧来做对齐,不同的帧,可能会对齐不同的因素。根据对齐的结果,我们用模板融合权重生成的算法,每一帧我们会计算它是由哪一些嘴型的模板融合而成,然后最后输出整个嘴型动画帧。我们也可以不需要直接提供这个语音文本,可以利用对语音做CTC加边界检测的算法,也能做到自动生成嘴型的一个结果。
下一个介绍的技术是风格化头部模型生成。因为目前游戏领域中的很多Avatar,它除了写实的风格以外,也会存在一些像日系卡通、美式卡通、科幻,还有唯美等多种不同的游戏风格。和这些写实模型相比的话,其实这些风格可以参考的头部模型是比较少的,所以对于美术来说,制作这些头部模型可能会存在成本比较高,周期比较长,流程比较慢的情况。
针对这些问题,我们自研了一个算法,工作室只需要制作少量的符合他们游戏风格的头部模型提供给我们,我们就可以批量化地去为他们生成具有一样游戏风格的这些头部模型。下面展示两个例子。
第一个是在和《猎手之王》的合作中,大家可以看一下游戏提供给我们的角色资源是左上角的这些图,然后实际用的时候,我们输入一些真实的图像,就能生成和游戏风格头部模型一样的头部mesh,提供给游戏工作室的美术去进行微调。
下一个例子可能会更加清晰的去展示我们的技术,这是和《故土》这款游戏的一个合作,这款游戏的脸模风格可以看左上角的这些图是非常具有特点的。大家可以看右边我们算法生成的图,把整个头部模型生成出来之后,直接带入到游戏的一些资源里面,就能生成非常丰富的不同风格化的一个NPC资源。
这里简单介绍一下整个流程。当一张图输入之后,我们是需要先把这个图去进行一个模板的预处理的,然后需要去做人脸的检测和人脸关键点的对齐,接着是一个3D人脸重建的过程,因为人脸重建的结果和游戏提供给我们的头部模型的拓扑,很大几率是不一样的,所以这里还需要做一步拓扑对齐,下一步就是非常重要形状风格化,根据游戏给我们提供的脸模的风格化,对我们的3D模型进行风格的转变,最后生成对应的风格化贴图,最后输出给游戏。
这里要说的是拓扑对齐这一步,我们重建的人脸和游戏给我们提供的人脸风格大概率拓扑是不一致的,我们需要通过一些mesh deformation的方法去把这两个完全拓扑不一样的脸模去进行拓扑对齐,然后再根据一些特征规则和组合部件的方式,把五官进行一个分解,再按不同的五官顺序去进行一个组合,最后添加脑壳,使得整个生成的形象是符合游戏风格的。
近几年的用户,也非常喜欢通过智能手机来直接捕捉自己的一些表情,然后通过手机的软件去制作一些虚拟角色的表情动画,对于这一点,我们也自研了面部动捕技术,这个技术既可以用于离线的表情资源制作,也可以用于游戏中实时去捕捉玩家的一些表情,譬如制作一些玩家特有的表情动画,包括一些UGC内容。
下面是实际在做表情捕捉时候的一个流程。因为它整个求解的表情系数是一个非线性优化的问题,很大程度上其实它的效果是取决于人脸特征点,就是大家在下面这个图看到绿色这些点的位置。因此我们AI Lab也自研了一个轻量级高精度的人脸关键点检测模块。最终的系统然后对这些细致的表情进行定位,同时针对眨眼检测、视线跟踪和舌头检测这些我们也分别训练了不同的网络去进行一个非常精准的一个跟踪和捕捉。
传统的动作捕捉会存在非常多的人工环节,比如说当我们捕捉做完,后期是需要非常多的美术外包去把这些动作进行修正,因为它很可能得到的结果并不是非常的连贯的,或者是会有抖动的。
近年来AI技术也是可以去把这个大量美术外包的工作去进行优化的。我们这边了提出了我们自己的算法,这个算法可以针对不同的动捕效果进行一个后期的优化。
这边可以展示了两个对比的例子。看一下左边这个在手部的位置捕捉的精准性以及右边的当动捕出来的效果不一样的时候,它还是非常抖动的,而我们的算法的话,它的整个连贯性是非常好的。相关的技术也发表在SIGGRAPH上。
下一个介绍的技术叫做视频动捕。像上面提到的,传统的通过硬件动捕的方式,其实是需要非常大的拍摄空间,以及很多的高速摄像机,还需要演员去演绎,和很多的后期处理的。这样导致整个周期拖得比较长,成本也是非常高的。
但是通过动作迁移技术,我们使用一个普通的摄像头就能把视频中的动作捕捉下来,然后直接用算法去生成最后的动作序列,游戏就可以直接地把动作序列放入到它希望的游戏角色里面,这样子玩家可以制作自己喜欢的一些动作,比如说胜利的庆祝动作,还可以用于营销上的一些快速的资源产出。
我们这里可以看一个具体的例子。我们能从RGB视频里面分析出整个动作序列,并且把它放到游戏希望放到的一个角色里面。
这个技术背后的流程,首先我们需要对第一帧数的第一帧进行一个检测,也就是detection的一个过程,因为第一帧其实我们是需要去做detection去检测这个人的位置的,后面帧的话我们直接用一个tracking的方式去跟踪整个人的位置就可以了,会大大节省时间。
然后做的就是2D的一个关键点的定位。在2D pose estimation之后,因为我们最后需要的是一个3D的结果,所以说这里还有一个3D pose estimation的一个过程。
因为我们是每帧去获取结果的,所以很有可能帧与帧之间的一些信息是没有充分利用到的,会导致它会有一些抖动,所以说这里的第5步就是一个refinement的过程,会把整个视频的动作进行一个平滑的处理,然后后面再把3D的结果reprojection到2D点,也就是图像原来的位置上进行一个比对,以及通过一些后期处理的方式,对美术比较关心的像重心、脚步、还有胯部等多个细节进行一一修正。
下面介绍一个技术叫做自动插帧。对于很多二次元游戏来说,它里面会有非常多的动态图,每一个动态图可能它都是需要美术去一帧帧地手k的。
为了提升他们的速度,我们开发了这样一个工具,譬如说美术原来手k一个1秒30帧的这样一个动画,现在只需要手K第一帧和最后一帧,中间的其他帧可以用我们的算法直接插帧出来,提升效率。
右面展示的两个动态图,左边都是美术手k的结果,右边就是通过我们的算法得到的一个效果,左右两边的效果几乎是差不多的。
下一个技术是资源超分。其实资源超分这个课题,无论是国内还是国外,都有非常多的游戏公司会去尝试,因为对于很多游戏公司来说随着时间的推移,他们整个游戏的品质是需要提升的,所以说对于那种旧的纹理资源,他们是需要去做一些升级。
这里展示的是国外已经开发过的一些结果,比如说像《重返德国总部》等等这样的游戏,还有像《毁灭战士》等等,他们都是用这个技术去进行了一些资源的重制,使得玩家在玩游戏的时候感觉完全不一样,就像完全升级更新了一版。
我们也和《天下3》这边做过一些合作,在他们的资料片里面,我们把一些旧的纹理资源直接通过资源超分和去噪的方式,帮他们对整个这些资源的纹理进行了一个升级。
左边的话就是以前游戏里面看到的一个效果,右边的图其实都是新的,新版资料片里面能看到效果,大家可以看到通过这个算法,整个纹理的精细度是提高了非常多的,而整个过程其实都是完全由算法去实现,不需要美术的参与。
下一个介绍的技术是和贴图变换相关的。因为现在非常多的游戏,它都是在游戏中卖服装或者是武器的皮肤等等。策划往往对于新服装会有非常多的想法,但是他不可能把每一个服装的想法全部都让美术去实现一遍,然后再看哪一个效果再去推出,因为这样会非常的浪费成本。
我们这边就给他们研发了一个贴图生成的算法,这个算法可以直接根据一些衣服真实的图片生成一个游戏纹理资源,然后直接放到3D模型里面,策划就可以快速看出服装在美术做出来之后的大概样子。
包括右边的武器皮肤也是一样,策划可以输入不同的他希望得到的这种武器皮肤的色调图,然后我们快速地去生成最后的结果大概是怎么样的,让他可以快速地去做一个决定。
通过AI技术,提供新的游戏体验
除了第一部分介绍的一些降低成本的工作以外,我们其实也会去思考,怎么样去通过一些AI技术来给玩家带来一些新的游戏体验。
游戏里常规的战斗匹配,基本都是根据战力去做的,但是我们发现除了战力的均衡以外,有些社交上的目标匹配也会给游戏带来一个比较好的结果。譬如说如果我们考虑到匹配的这批互相不认识的玩家,在打完比赛以后,他们可能会组成小队或者去加好友,然后在后面继续玩下去。
这种社交沉淀对整个游戏其实是有非常好的作用的。所以我们在匹配算法上其实也做了非常多优化的尝试,加入了很多的社交目标,然后实际的结果是非常能帮助游戏进行玩家的一个社交沉淀的。
现在的捏脸系统几乎成了MMORPG的标配,很多玩家会花非常多的时间在上面捏脸,希望通过捏脸系统把自己的角色捏成某个idol或者是自己的样子,但是有些玩家可能并不是非常擅长做这样的事情,我们就给这些玩家提供了一个自动生成捏脸效果的算法。
玩家他只需要上传自己喜欢的idol或自己的一个图片,我们就可以一键去帮他找到最优的捏脸参数,这个技术也已经落地到《一梦江湖》等游戏里面。
语音交互现在其实已经非常常见了,我们也非常多的工作室去落地了像语音交互和操控方面的技术。这边可以看三个例子。
第一个例子是《明日之后》,主要做的就是人和宠物之间的沟通和交互;第二个例子是《哈利波特:魔法觉醒》的一个飞行课学习,这个课它需要玩家去念一些指定的咒语,然后我们需要去判断玩家念的咒语是否是匹配的;
下面有一个更加好玩的例子,我们为《机动都市阿尔法》做了一个语音唤醒的功能,这个功能就是玩家希望在释放某些技能的时候,是通过语音操控的方式去做的,然后语音操控希望是完全的自定义匹配,就是说技能释放是用什么命令来驱动的,完全是可以自己定义的,在实际打的时候玩家直接喊出来就可以了,游戏会自动去识别这个指令,并且释放相应的预设好的技能。这项技术中声纹识别部分(判断是不是玩家本人念的命令)我们发表在了语音顶会INTERSPEECH里面,大家有兴趣的可以去看一下,然后这边展示的就是《机动都市阿尔法》的一个效果。
下一个要介绍的是现在很多二次元游戏可能都需要的,基于音乐去生成舞蹈的功能。这个相关的技术我们也发表在今年的SIGGRAPH里面,然后这个技术也目前已经应用于《黑潮之上》,可以大大节省美术根据音乐手K舞蹈动作的时间。
同时我们其实也利用非常多NLP相关的技术放在游戏里面,譬如像一些对联的玩法、自动写诗的玩法以及风格化昵称推荐的玩法,这背后都是基于NLP的技术去给这些工作室提供技术支持的。
语音合成这一块也是我们一直在探索落地的技术,通过深度学习算法,我们能做到一个比较好的语音合成效果,应用于像《决战!平安京》的剧情编辑器里面,大家可以看一下这样的例子。
开始的这一段就是合成的,包括整个剧情编辑器里面的所有音色,玩家都是可选可用于编辑他的剧情,同时在一些系统的提示音里面,我们也是可以直接通过语音合成的技术去实时生成的。这里我们找了一个吃鸡的视频,然后在里面去做一些配音,它里面一些数字都是动态的,所以说整个语音都是实时生成的。
我们希望在实际中,能用最少的这种音频数据去做出质量比较好的合成效果,相关的技术也发表在INTERSPEECH里面。主要的做法就是我们可以利用一些没有标注的非平行数据去进行一个预训练,使它整体的合成效果变得更好。
音色转换也是我们的一个重要的研究方向。可以试想一下,如果你在玩狼人杀游戏的时候,能直接用柯南的音色来玩,用柯南的声音说出“真相只有一个”,会不会大大增加游戏的趣味性呢。
我们这里可以看两个例子,我们分别以男转女以及女转男这两种比较难的情况来体现目前我们技术的效果。可以发现通过音色转换技术是可以比较好的保留说话人原来的情绪以及内容的。
当然我们也研究了很多基于强化学习的技术的应用。譬如在一些赛车游戏里面,策划在设计新赛道之后,需要快速地知道所有不同参数的车辆在这个新赛道的表现是否符合预期,这个时候我们就可以基于强化学习和CPU集群,快速为策划提供这样一个测试报告,以便他做出准确的判断。像游戏卡牌类的游戏也是一样,对一些数值修改,我们也能非常快速地生成游戏平衡性的报告。
另外,当时我们在参加谷歌足球比赛的时候,我们发现AI即使完全不依赖玩家数据,也能自动学习出一些比较有趣的决策,包括过人。因为这个游戏是没有“过人键”的,但是AI能自动学会通过左右晃去摆脱防守队员,包括一些像底边传中的传球技术,传给门将后的大脚的反击,防守中的铲球,它也是能学到的,这些都是由游戏AI自动学习出来的结果。
运用AI技术,协助游戏运营和营销
最后也介绍一下我们在运营和营销方面的一些尝试和运用。比如说我们会用AI技术去做图像文本以及语音方面的一些内容检测,去净化整个游戏环境,防止玩家上传一些不合规的图或者是一些影响玩家体验的语音内容。这里面会涉及到像图像识别,物体检测,人脸检测与识别,OCR,文本分类,语音识别等各种AI方向的技术。
另外当一个游戏上线新玩法的时候,策划很想及时知道玩家的反馈。我们这边做了一个舆情的实时监控系统,就可以针对性的根据策划需求,让他实时看到玩家的评价是怎么样的,及时地去做一些调整。
还有比较受欢迎的AI换脸,我们和非常多的工作室合作过这样的一些营销活动,玩家通过上传自己的照片,就能替换海报上的人脸,得到自己在游戏里面的形象,增加他们的参与度和热情。
最后也是一个非常重要的点,就是我们会配合工作室以及游戏程序,还有游戏运营一起,利用异常行为检测和一些视觉技术,去打击游戏外挂,来保证整个游戏的环境。
以上就是我今天想跟大家分享的网易互娱AI Lab在这段时间做的一些赋能于游戏各个环节的工作,也希望未来能为大家分享出更多这样的一个探索结果,谢谢大家!
元宇宙数字产业服务平台
下载「陀螺科技」APP,获取前沿深度元宇宙讯息
110777025(手游交流群)
108587679(求职招聘群)
228523944(手游运营群)
128609517(手游发行群)