首页 Metaverse 谷歌研究人员发布VLOGGER模型,让静态照片中的人物动起来
谷歌研究人员发布VLOGGER模型,让静态照片中的人物动起来

谷歌研究人员发布VLOGGER模型,让静态照片中的人物动起来

  近日,据海外媒体报道,谷歌公司(Google)的研究人员发布了一种新的人工智能系统,该系统可以从一张静态照片中生成人们说话、手势和动作的逼真视频。这项名为VLOGGER的技术依靠先进的机器学习模型来合成逼真得惊人的视频镜头,在开辟了一系列潜在的应用场景,同时也引发了人们对深度造假和错误信息的担忧。

  在一篇名为“VLOGGER: Multimodal Diffusion for Embodied Avatar Synthesis”的研究论文中,该人工智能模型可以将人的照片和音频片段作为输入,然后输出与音频相匹配的视频,显示人说话并做出相应的面部表情、头部动作和手势。这些视频并不完美,但代表了动画静态图像(animate still images)能力的重大飞跃。

  该项研究由Google Research的Enric Corona领导,研究人员利用一种称为扩散模型的机器学习模型来实现这一新成果。扩散模型最近在从文本描述生成高度逼真的图像方面表现出色。通过将扩散模型扩展到视频领域,并在一个庞大的新数据集上进行训练,研究人员能够创建出一个新的人工智能系统,以一种非常令人信服的方式将照片展示得栩栩如生。

  研究人员称,与之前的工作相比,我们的方法不需要对每个人物进行训练,不依赖于面部检测和裁剪,就能够生成完整的图像(不仅仅是面部或嘴唇),并考虑了广泛的场景(例如可见的躯干或不同的主体身份),这些场景对于正确合成正在交流对话的人物至关重要。

  在这背后一个关键的推动因素是一个名为MENTOR的庞大的新数据集,这个数据集包含超过80万个不同的人物身份和2200小时的视频,比以前可用的数据大了一个数量级。这使得VLOGGER可以学习创作出不同种族、年龄、服装、姿势和周围环境的人物的视频,而不会产生偏见。

  这项技术开辟了一系列引人注目的用例。研究论文展示了VLOGGER的能力,它可以通过简单地交换音轨来自动将视频配音成其他语言,可以无缝地编辑和填充视频中缺失的帧,还可以从一张照片中创建一个人的完整视频。

  人们可以想象,演员可以授权自己的详细3D模型,用于生成新的表演。这项技术还可以用来为虚拟现实和游戏创造逼真的数字化身。它可能会创造出更有吸引力、更有表现力的人工智能虚拟助手和聊天机器人。

  谷歌公司认为VLOGGER是向“具身对话代理”(embodied conversational agents)迈出的一步,它可以通过语言、手势和眼神交流自然地与人类互动。研究人员提到,VLOGGER可以作为一个独立的解决方案,用于演示、教育、叙述、低带宽在线交流,也可以作为纯文本人机交互的界面。

  然而,这项技术也有被滥用的可能,例如在制造深度伪造,用其他人的肖像代替视频中的人的合成媒体。随着这些人工智能生成的视频变得更加逼真和容易制作,它可能会加剧错误信息和数字伪造方面的挑战。

  虽然这项研究成果令人印象深刻,但VLOGGER仍然有局限性。生成的视频相对较短,并且具有静态背景。人物个体不会在3D环境中移动。它们的行为举止和语言模式虽然很逼真,但与真正的人类并不是没有区别的。

  尽管如此,VLOGGER还是向前迈出了重要的一步。研究人员提到,我们在三个不同的基准上对VLOGGER进行了评估,并表明所提出的模型在图像质量、身份保持(identity preservation)和时间一致性方面优于其他最先进的方法。

  随着进一步的发展,这种人工智能生成的媒体可能会变得无处不在。我们可能很快就会生活在这样一个世界里:我们很难分辨视频中对我们说话的人是真实的还是计算机程序生成的。

延伸阅读:

Powered by Froala Editor