文生视频的一年，那些AI化的游戏将迎来Sora革新？

推广

行业活动

发布时间：2024-02-23 15:31 | 标签： AI 人工智能 OpenAI Sora

微信扫一扫：分享

微信里点“发现”，扫一下
二维码便可将本文分享至朋友圈

这几天，AI行业，乃至整个互联网行业，包括投资界都在谈论一件事：OpenAI发布的文生视频模型Sora，这一石子究竟能激起多少层浪。

AI生成视频并不是一个新生赛道，所以很多人疑惑，在铺天盖地的新闻之下，Sora到底取得了多大的进步。

我们将时间拉回到一年前，“AI视频大模型”此时已经拥有足够的关注度。2023年2月，Runway发布第一代产品Gen-1，让用户可以在iOS上，通过文本转化成视频格式。3月份，Gen-2发布，人们可以插手后期剪辑优化视频。网络热门作品《流浪地球3预告片》正是基于Gen-2创作。作者“数字生命卡兹克”借MidJourney生成分镜图，然后使用Gen-2扩散为4秒的视频片段，最终合成一条以假乱真的预告片。

或许出身自纽约大学艺术学院的三位创始人一开始想着是为影视内容输出生产力，所以Runway全身心加入到《瞬息全宇宙》等大片制作当中。但AIGC浪潮的来临，在游戏产业却迸发了出乎意料的想象和需求。

5月29日，英伟达创始人兼首席执行官黄仁勋在COMPUTEX大会上展示公司为游戏提供的定制化AI模型代工服务——Avatar Cloud Engine (ACE)，开发人员经AI视频生成工具Audio to Face一番操作实现栩栩如生的角色动画。

其实早在2021年，英伟达在GTC技术大会上便利用Audio to Face制造了一场AI黄仁勋演讲视频的假象。如今这一工具已成熟到可以被Convai、Inworld、米哈游、网易游戏、掌趣科技、腾讯游戏和育碧等公司，甚至是独立游戏开发者，应用于实际项目当中。一名开发者Fallen Leaf用Audio to Face成功制作完成了《索利斯堡》（FORT SOLIS）中角色的脸部动画。

欧洲知名厂商之一的GSC Game World也在自家的得力之作《潜行者2：切尔诺贝利之心》身上采用了该工具来实现想要的效果。

当然游戏产业的技术需要绝不满足于此。所以，作为互联网技术领先企业，去年秋季英伟达推出基于AI增强光线重建技术的DLSS 3.5，训练的数据量是DLSS 3的5倍，可以适应更多的光照模式，最终效果比需要人工设计的降噪器更出色。以《赛博朋克2077》为例，开启DLSS 3.5后，整个城市模型的质感和霓虹灯反射的清晰度得到了大幅提升。英伟达称，DLSS 3.5结合了超分辨率、帧生成和光线重建，与没有DLSS渲染的画面相比，《赛博朋克 2077》帧率提高了5倍。

除此以外，该公司还针对ACE引入了SteerLM技术进行升级。该技术旨在让开发者能够定制NPC个性，为游戏对话等互动提供准确的情绪反馈。

无独有偶，艺术家团体Sagans运用虚幻引擎的MetaHuman Creator，同时配合AI算法，仅凭文本描述就为其首部音乐录影带《Coherence》生成了大部分镜头。

在最终成品所描绘的后现代图景中，一位女性正在新城市中寻找着属于自己的位置，画面采用素描风格，镜头伴随着音乐不断移动，从明亮的樱花树转场至纽约地铁。

据了解，Sagans是从iOS的Live Link Face应用中取得角色面部表情动画，通过Quixel和LUmen完成了背景环境，最后帮助AI算法生成了这般复杂行为的视频。

过程曲折，不过毋庸置疑，游戏行业对AI技术的追求正在使一批技术服务公司奋力推进旗下的AI业务，倒逼AI产业的迅速成长。

如今，Sora的到来可以实实在在地只用一句话，就能完成一个不俗的视频，用360公司CEO周鸿祎的话来说，“Sora的诞生意味着AGI（通用人工智能）实现从10年缩短至一两年。”

比起Gen-2的“4秒定律”和Pika的“风格化”，这颗突然袭来的“深水炸弹”不仅拉长了视频时间，功能强大，效果也是相当炸裂。

在一段演示时尚女性走在东京街头的视频中，Sora不仅可以完美呈现指令的内容，并且镜头能从远景到近景，再到特写等各角度拍摄。整个60秒的视频非常流畅。时尚女性面部的毛孔和瑕疵清晰可见，质量让人赞叹。

根据OpenAI的说法，Sora除了可以根据文字描述生成视频外，还可以根据现有的图片生成视频，目前可生成的视频长度在1分钟左右；而且，视频支持多个角色、特定类型的运动、精确主题和背景细节等复杂场景。

网络上，有极客针对Sora、Pika、Runway和Stable Video四个模型输入了相同的prompt进行比较，结论是，Sora不仅仅在生成时长方面有显著优势，并且难能可贵的是，它对指令的理解能力也更胜一筹。

Meta推出的Emu Video看起来比Gen-2更进一步，能够支持512×512、每秒16帧的“精细化创作”，但无论从对物理世界的理解能力，还是支持单视频任意机位和分辨率的角度来讲，Sora也许是目前现有的竞争产品尚未企及的。

尽管如此，Sora的短板边界依然明显。对于复杂的因果关系，Sora也没法做到尽善尽美。譬如一段人咬饼干的视频，饼干可能不会出现咬痕。再者篮球穿过篮筐时的穿模现象，椅子悬浮移动的画面，这些怪诞的镜头，一一说明Sora虽然是革命性的技术进步，但水平仍不足以封神。

不过要知道，Sora问世的时间距离Gen-2上线仅仅只有8个月，而Pika更短，它的出现又加快了行业革新的脚步，同行更加焦虑了，恍如每天面对的是日新月异的时代，不勒紧裤腰带拼命卷，可能刹那间就会被淘汰。知乎上，一位叫做“像素炼金师”的创业者表露了他在目睹Sora发布后的心声：“我有些害怕科技巨头的产品像隆隆火车一样驶过，而我做的东西如同路边的野草一样，在这个技术进步就像跑马灯一样的时代里，留不下一丝痕迹。”

周鸿祎在自己的口播视频里这样评论道：“有人认为有了AI以后创业公司只需要做个体户就行，实际今天再次证明这种想法是非常可笑的。”

AI发展过快好像整个世界都变得不真实了。出门问问创始人李志飞在朋友圈感叹：“LLM ChatGPT是虚拟思维世界的模拟器，以LLM为基础的视频生成模型Sora是物理世界的模拟器，物理和虚拟世界都被建模和模拟了，到底什么是现实？”

连马斯克在Sora发布后数小时都在X平台感慨：“gg humans”。

Sora的出现无疑又将引发新一轮的追赶。Runway联合创始人兼CEO Cristóbal Valenzuela表示，以前需要花费一年的进展，变成了几个月就能实现，又变成了几天、几小时。

前阿里副总裁、Lepton AI公司创始人贾扬清认为，Sora的问世还可能会给对标OpenAI的公司带来一波被大厂收购的机会，他称这类收购为“害怕错过机会而导致的收购”。同时他表示，Sora这类文生视频大模型的出现将会推动AI基础设施的需求猛增。

的确，为ChatGPT提供GPU的英伟达在公开四季度业绩后，于盘后涨超10%。另一方面，诸多游戏厂商们也正在争取与英伟达、Epic这样强劲的服务商达成独家合作，借助第三方AI工具及产品发力未来。又或者，一些拥有人才积累和技术的厂商也会选择自建AI驱动平台完善工业化流程，以此巩固护城墙。

显然易见，游戏厂商或许都在为了拿到一张AI车票而谋划。故此，面对行业日益高涨的需求，AI的技术革命会不断继续演进吧！