3D建模框架“3D-GPT”发布,利用大语言模型和智能代理快速准确生成3D内容资产
近日,据海外媒体报道,来自澳大利亚国立大学(Australian National University)、牛津大学(University of Oxford)和北京智源人工智能研究院(Beijing Academy of Artificial Intelligence)的研究人员开发了一种名为“3D-GPT”的人工智能系统,该系统可以简单地从用户提供的基于文本的描述中生成3D模型。
在研究人员发布的论文中,与传统的3D建模工作流程相比,“3D-GPT”提供了一种更有效、更直观的方式来创建3D资产。“3D-GPT”能够“将3D建模任务分解为不同的可访问部分,并为每个任务指定合适的代理”。利用多个AI代理,每个代理专注于理解文本提示和执行建模功能的不同部分。
“3D-GPT”采用大语言模型作为一个多智能体系统,该系统具有三个协作智能体,用于3D资产的生成
这些协作智能体主要分为3类:一个是“任务调度代理”(task dispatch agent),主要是解析文本指令。另一个是“概念化代理”(conceptualization agent),主要是添加初始描述中缺少的细节。还有一个是“建模代理”(modeling agent),主要是设置参数并生成驱动3D软件(如Blender)的代码。
通过分解建模过程和分配专门的人工智能代理,“3D-GPT”能够解释文本提示,用额外的细节增强描述,并最终生成与用户设想相匹配的3D资产。该论文解释说,“3D-GPT”增强了简洁的初始场景描述,将它们演变成详细的描述形式,同时根据后续指令动态调整文本。
目前,该系统已经在一些提示中进行了测试,如“一个雾蒙蒙的春天早晨,露水亲吻的花朵点缀在郁郁葱葱的草地上,周围是萌芽的树木。”这样的一个提示,“3D-GPT”能够生成具有逼真图形的完整3D场景,准确反映提示文本中描述的元素。
虽然生成的3D图像的质量还不够逼真,但早期的测试结果表明,这种基于智能代理的方法有望简化3D资产的创建。模块化体系结构还允许独立地改进每个智能代理组件。
研究人员表示,我们的实证研究证实,“3D-GPT”不仅可以解释和执行指令,提供可靠的结果,还可以与人类设计师有效合作。
通过生成代码来控制现有的3D软件,而不是从头开始构建模型,“3D-GPT”为建模技术的不断进步提供了一个灵活的基础。
研究人员总结道,他们的系统突出了大语言模型在3D建模方面的潜力,为未来场景生成和动画的发展提供了一个基本框架。
这项研究可能会彻底改变3D建模传统方式,使这个过程更高效、更容易获得。随着我们进一步进入虚拟世界时代,3D内容创作将成为催化剂,像“3D-GPT”这样的工具将被证明对游戏、虚拟现实、电影和多媒体体验等一系列行业的创作者带来潜在的巨大价值。
目前,“3D-GPT”框架仍处于早期阶段,存在一些局限性,但它的推出标志着人工智能驱动的3D建模向前迈出了重要一步,并为未来的发展开辟了可能性。
延伸阅读:
- 让用户轻松地在手机上创建3D数字人化身,Copresence融资超600万美元
- 和Marxent合作,知名家居沙发品牌La-Z-Boy为用户提供高度可定制化的3D产品展示
- Unity发布两款AI新工具,提高3D内容资产的开发效率
- 英伟达发布Neuralangelo,借助神经网络将2D视频转换为更精细的3D结构
- 估值1.35亿美元,家居3D模型创建平台3D Cloud by Marxent融资750万美元
- OpenAI发布Shap-E模型,文本提示即可转换成3D对象
- 3D内容创建平台Kinetix发布生成式AI产品Text2Emotes,快速高效创造游戏内表情符号
Powered by Froala Editor