Meta给了OpenAI一记重击:视频生成Movie Gen登场,甚至可以配音、编辑

Meta 表示:「无论是希望在好莱坞大展身手的电影制作人,还是爱好为观众制作视频的创作者,我们相信每个人都应该有机会使用有助于提高创造力的工具。」

根据 Meta 的描述

Movie Gen 的功能包括:文本生成视频和音频、编辑已有视频、图片生视频。并且人类评估表明,Movie Gen 在这些任务上的表现均优于行业内类似模型。

具体的效果如何,我们先来看几个示例。

可以看到,小女孩在奔跑的过程中衣服的褶皱就已经吊打很多视频生成应用了。

挪威电话号码数据库简化了获取新客户 尼日利亚电话号码资料 的工作,让公司能够访问经过彻底验证的联系方式。富有洞察力的数据有助于提高推广效率,让公司与正确的客户资料取得联系。通过更好的细分和个性化,企业不仅可以提高参与率和降低每次获取成本,还可以建立忠诚度关系,从而推动竞争激烈的挪威市场的长期增长。

个女孩正在海滩上奔跑,手里拿着一只风筝。她穿着牛仔短裤和黄色 T 恤,阳光洒在她身上。

在转头、正视前方、微笑的几个动作中,人物面部依然可以保持稳定状态,克服了形变。怪不得 Meta 在博客中还谈到,这是能够用来分享日常生活的可贵技术。

名女子正坐在南瓜田的草地上

她围着围巾,手里拿着一个杯子。背景中是一排排南瓜。

生成动物对 Movie Gen 来说也是小菜一碟。动物的毛发、动作都十分逼真。仔细看这只猴子的尾巴,在遮挡后依然能够遵循遮挡前的运动轨迹。背景生成结果也十分贴合 prompt。水面的波动、倒映都栩栩如生。不过水下折射的生成效果看起来还有些进步空间。

只红脸白毛的猴子正

在天然温泉中沐浴。猴子在玩水面上的一艘微 适用于电子商务卖家和第三方物流的最佳履行软件 型帆船,这艘帆船由木头制成,配有白色的帆和小舵。温泉周围环绕着郁郁葱葱的绿植,有岩石和树木点缀其间。

视频时间长一些,Movie Gen 也能有稳定的表现。人物大幅度动作的展现也比较逼真。但每一帧定格下来,还会有些瑕疵。不过这是视频生成一贯的难题,Meta 或许会在未来进行改进。

镜头位于一名男子的身后。男子赤 新加坡带领 裸上身,腰间系着绿色布料,赤脚站立。他的双手各持一个燃烧的物体,做出大幅度的圆周动作。背景是一片平静的海面,火舞营造出迷人的氛围。

Sora 刚刚问世时,往往还需要 Elevenlabs 这样的音频生成应用来辅助。而 Movie Gen 显然更加便捷,除了视频生成,配备相应的音乐、音效也是拿手好戏。

面对整个视频的场

景,合适的背景音乐能够贯穿全程。不仅如此,音效的适配度也很高。这个瀑布倾泻的水声就十分逼真。

prompt:雨水倾泻在悬崖和人身上,有背景音乐。

更让人惊讶的是,音效还能够精准地与视频内容匹配。它能够通过视频中的动作节点来把握音效出现的时机,让画面和声音相辅相成,给我们呈现出完整的生成效果。

prompt:车轮飞速旋转,滑板落在水泥地上发出砰的一声。

无论是视频,还是音频 Movie Gen 看起来都表现优异。

如果 Meta 所言非虚

那么 Movie Gen 也真算得上是目前最先进和最沉浸式的「讲故事模型套件(storytelling suite of models)」。

Meta 表示训练使用的数据集都是公开数据集或已获得授权的数据集。下面将简要介绍各项能力以及背后的技术,更多详情请参阅原论文。

Meta 在博客中简单回顾了自己的视频生成之旅。他们的第一波生成式 AI 研究始于 Make-A-Scene 系列模型,这些模型可以生成图像、音频、视频和 3D 动画。

随着扩散模型的出现

他们又基于 Llama 基础模型做出了第二波研究,成功实现了更高质量的图像和视频生成以及图像编辑。

Movie Gen 则是 Meta 的第三波研究。他们将以上所有模态都组合到了一起,并能以前所未有的方式为用户提供进一步的细粒度控制。

下面详细介绍 Movie Gen 的各项能力。

给定文本提示词,Movie Gen 会使用一个针对文生图和文生视频任务优化过的联合模型来创建高质量和高清晰度的图像和视频。这个 30B 参数的 Transformer 模型有能力生成长度最多 16 秒帧率为 16 FPS 的视频。Meta 表示还发现这些模型可以推理物体运动、主客体交互和相机运动,并且它们还能学习各种概念的合理运动 —— 这也使它们成为了同类中的 SOTA 模型。

具体流程如下图所示

他们先通过一个时间自动编码器模型(TAE)训练了一个时空压缩的隐空间,然后再基于此训练了一个生成模型。

模型架构上,他们采用了 Transformer,整体位于 Llama 3 的设计空间中。下表展示了其 30B 参数基础模型的各个超参数。值得注意的是,这里的 30B 参数指的是 Transformer 本身的参数量,并不包含文本嵌入模型、TAE 等。

为了训练这个模型,使用了多达 6144 台 H100 GPU,每一台的热设计功耗为 700W,并且都配备了 80GB 的 HBM3。

下图展示了 Movie Gen Transformer 骨干网络的整体结构以及所使用的模型并行化机制。具体来说包括张量并行化(TP))、序列并行化(SP)、上下文并行化(CP)和全共享式数据并行(FSDP)。

而在推理阶段,Meta 的一个创新思路是首先使用 Llama 3 对用户输入的提示词进行重写,将其扩展成更加详细的版本。实践表明该方法确实有助于提升生成结果的质量。此外,Meta 还在提升推理效率方面引入了一些新思路。

效果上,下表展示了 Movie Gen Video 模型与之前相关研究的胜率情况。注意这里的数值是 Movie Gen 的获胜百分比减去落败百分比,因此可知 Movie Gen 的整体表现胜过之前的模型。

基于上述基础模型,Meta 还开发出了个性化视频功能。用户只需提供人物图像输入和对应的文本提示词,就能生成包含该人物以及文本描述的细节的视频。Meta 表示 Movie Gen 生成的个性化视频在保留人类身份和运动方面做到了 SOTA。

发表评论

您的邮箱地址不会被公开。 必填项已用 * 标注