首页 Metaverse 斯坦福大学和Meta研究人员发布新的AI系统,仅根据文本描述在虚拟人和物体之间产生自然的同步运动
斯坦福大学和Meta研究人员发布新的AI系统,仅根据文本描述在虚拟人和物体之间产生自然的同步运动

斯坦福大学和Meta研究人员发布新的AI系统,仅根据文本描述在虚拟人和物体之间产生自然的同步运动

  近日,据海外媒体报道,斯坦福大学和Meta公司的Facebook人工智能研究(FAIR)实验室的研究人员开发了一种新的人工智能系统,该系统可以仅根据文本描述在虚拟人(virtual humans)和物体之间产生自然的同步运动。

  这个新系统被称为CHOIS(Controllable Human-Object Interaction Synthesis,可控人-物交互合成),它使用最新的条件扩散模型技术来产生无缝和精确的交互,比如“把桌子举过头顶,走路,放下桌子”。该系统让我们得以一窥未来,虚拟生物可以像人类一样流畅地理解和响应语言命令。

  研究人员在研究论文中指出,在3D场景中,从语言描述中生成连续的人-物交互带来了一些挑战。他们必须确保生成的动作是真实的和同步的,在人的手和物体之间保持适当的接触,物体的运动与人的行为有因果关系。

  CHOIS系统以其独特的方法在3D环境中合成人机交互,其核心是使用条件扩散模型,这是一种生成模型,可以模拟详细的运动序列。当给定人类和物体位置的初始状态,以及所需任务的语言描述时,CHOIS会生成一系列运动,最终完成任务。

  例如,如果指令是将灯移近沙发,CHOIS就会理解这个指令,并创建一个逼真的动画,让数字人化身拿起灯并将其放在沙发附近。

  使CHOIS特别独特的是它使用稀疏的对象路径点和语言描述来指导这些动画。路径点充当对象轨迹中关键点的标记,确保运动不仅在物理上合理,而且与语言输入概述的目标保持一致。

  CHOIS的独特之处还在于它将语言理解与物理模拟先进地结合在一起。传统模型往往难以将语言与空间和物理动作联系起来,特别是在更长时间的互动范围内,必须考虑许多因素才能保持真实性。而CHOIS通过解释语言描述背后的意图和风格,然后将它们翻译成一系列符合人体和所涉及对象约束的物理运动,从而弥合了这一差距。

  CHOIS系统是具有开创性的,因为它确保了接触点(如手触摸物体)被准确地呈现出来,并且物体的运动与数字人化身施加的力相一致。此外,该模型在训练和生成阶段结合了专门的损失函数和指导,以强制执行这些物理约束,这是创造能够以类似人类的方式理解和与物理世界交互的人工智能的重要一步。

  CHOIS系统对计算机图形学的影响是深远的,特别是在动画和虚拟现实领域。通过使人工智能能够解释自然语言指令以生成逼真的人机交互,CHOIS可以大大减少制作复杂场景动画所需的时间和精力。

  动画师可能会使用这项技术来创建传统上需要的关键帧动画的序列,这既费时又费力。此外,在虚拟现实环境中,CHOIS可以带来更身临其境的互动体验,因为用户可以通过自然语言命令虚拟角色,观看他们以逼真的精度执行任务。这种高水平的交互可以将VR体验从僵硬的脚本事件转变为以现实方式响应用户输入的动态环境。

  在人工智能和机器人领域,CHOIS代表着朝着更加自主和环境感知系统迈出的一大步。机器人通常受到预编程程序的限制,它们可以使用CHOIS这样的系统来更好地理解现实世界,并执行用人类语言描述的任务。

  对于医疗健康、酒店或家庭环境中的服务机器人来说,这可能尤其具有变革性,因为在这些环境中,理解和执行各种物理空间任务的能力至关重要。

  对于人工智能来说,同时处理语言和视觉信息以执行任务的能力,离实现情境和上下文理解的水平又近了一步,而到目前为止,这种理解一直是人类的主要特征。这可能会导致人工智能系统在复杂任务中成为更有帮助的助手,不仅能够理解人类指令的“内容”,还能够理解人类指令的“方式”,以前所未有的灵活性适应新的挑战。

  斯坦福大学和Meta的研究人员在计算机视觉、自然语言处理和机器人技术交叉领域的一个极具挑战性的问题上取得了关键进展。研究小组认为,他们的工作是朝着创造先进的人工智能系统迈出的重要一步,这些系统可以在不同的3D环境中模拟连续的人类行为。它还为进一步研究从3D场景和语言输入中合成人机交互打开了大门,可能会在未来带来更复杂的人工智能系统。

延伸阅读:

Powered by Froala Editor