首页 Metaverse 3D建模框架“3D-GPT”发布,利用大语言模型和智能代理快速准确生成3D内容资产
3D建模框架“3D-GPT”发布,利用大语言模型和智能代理快速准确生成3D内容资产

3D建模框架“3D-GPT”发布,利用大语言模型和智能代理快速准确生成3D内容资产

  近日,据海外媒体报道,来自澳大利亚国立大学(Australian National University)、牛津大学(University of Oxford)和北京智源人工智能研究院(Beijing Academy of Artificial Intelligence)的研究人员开发了一种名为“3D-GPT”的人工智能系统,该系统可以简单地从用户提供的基于文本的描述中生成3D模型。

  在研究人员发布的论文中,与传统的3D建模工作流程相比,“3D-GPT”提供了一种更有效、更直观的方式来创建3D资产。“3D-GPT”能够“将3D建模任务分解为不同的可访问部分,并为每个任务指定合适的代理”。利用多个AI代理,每个代理专注于理解文本提示和执行建模功能的不同部分。

  “3D-GPT”采用大语言模型作为一个多智能体系统,该系统具有三个协作智能体,用于3D资产的生成

  这些协作智能体主要分为3类:一个是“任务调度代理”(task dispatch agent),主要是解析文本指令。另一个是“概念化代理”(conceptualization agent),主要是添加初始描述中缺少的细节。还有一个是“建模代理”(modeling agent),主要是设置参数并生成驱动3D软件(如Blender)的代码。

  通过分解建模过程和分配专门的人工智能代理,“3D-GPT”能够解释文本提示,用额外的细节增强描述,并最终生成与用户设想相匹配的3D资产。该论文解释说,“3D-GPT”增强了简洁的初始场景描述,将它们演变成详细的描述形式,同时根据后续指令动态调整文本。

  目前,该系统已经在一些提示中进行了测试,如“一个雾蒙蒙的春天早晨,露水亲吻的花朵点缀在郁郁葱葱的草地上,周围是萌芽的树木。”这样的一个提示,“3D-GPT”能够生成具有逼真图形的完整3D场景,准确反映提示文本中描述的元素。

  虽然生成的3D图像的质量还不够逼真,但早期的测试结果表明,这种基于智能代理的方法有望简化3D资产的创建。模块化体系结构还允许独立地改进每个智能代理组件。

  研究人员表示,我们的实证研究证实,“3D-GPT”不仅可以解释和执行指令,提供可靠的结果,还可以与人类设计师有效合作。

  通过生成代码来控制现有的3D软件,而不是从头开始构建模型,“3D-GPT”为建模技术的不断进步提供了一个灵活的基础。

  研究人员总结道,他们的系统突出了大语言模型在3D建模方面的潜力,为未来场景生成和动画的发展提供了一个基本框架。

  这项研究可能会彻底改变3D建模传统方式,使这个过程更高效、更容易获得。随着我们进一步进入虚拟世界时代,3D内容创作将成为催化剂,像“3D-GPT”这样的工具将被证明对游戏、虚拟现实、电影和多媒体体验等一系列行业的创作者带来潜在的巨大价值。

  目前,“3D-GPT”框架仍处于早期阶段,存在一些局限性,但它的推出标志着人工智能驱动的3D建模向前迈出了重要一步,并为未来的发展开辟了可能性。

延伸阅读:

Powered by Froala Editor