首页 Metaverse 苹果公司发布开源AI模型MGIE,可以根据自然语言指令进行图像编辑
苹果公司发布开源AI模型MGIE,可以根据自然语言指令进行图像编辑

苹果公司发布开源AI模型MGIE,可以根据自然语言指令进行图像编辑

  近日,据海外媒体报道,苹果公司发布了名为“MGIE”的全新的开源人工智能模型,该模型可以根据自然语言指令编辑图像。“MGIE”的英文全名为:MLLM-Guided Image Editing,它利用多模态大语言模型(MLLMs)来解释用户命令并执行像素级的编辑操作。目前,“MGIE”可以处理各种编辑需求,如Photoshop风格的修改、全局照片优化和局部编辑等。

  “MGIE”模型是苹果公司和加州大学圣巴巴拉分校的研究人员合作的成果,并在2024年的ICLR(International Conference on Learning Representations)大会上发表的一篇论文中提出。

  “MGIE”模型是基于使用多模态大语言模型(MLLMs)的想法,多模态大语言模型(MLLMs)是一种强大的人工智能模型,可以处理文本和图像,以增强基于指令的图像编辑。多模态大语言模型(MLLMs)在跨模态理解和视觉感知响应生成方面表现出卓越的能力,但尚未广泛应用于图像编辑任务。

  据报道,“MGIE”模型通过两种方式将多模态大语言模型(MLLMs)集成到图像编辑的过程中。首先,它使用多模态大语言模型(MLLMs)从用户输入中派生出表达性指令。这些指令说明简洁明了,为编辑过程提供了明确的指导。例如,输入“使天空更蓝”,“MGIE”模型可以产生“将天空区域的饱和度增加20%”的指令。

  另外,“MGIE”模型使用多模态大语言模型(MLLMs)来生成视觉想象,即期望编辑的图像的潜在表示。这种表示抓住了图像编辑的本质,并可用于指导像素级操作。“MGIE”模型采用了一种新颖的端到端训练方案,共同优化了指令派生、视觉想象和图像编辑模块。

  “MGIE”模型的功能非常强大,它可以处理广泛的图像编辑场景,从简单的颜色调整到复杂的编辑对象操作。该模型还可以根据用户的偏好执行全局和局部编辑。

  富有表现力的基于指令的编辑:“MGIE”模型可以生成简洁清晰的指令,有效地指导编辑过程。这不仅提高了编辑的质量,还增强了整体的用户体验。

  Photoshop风格的修改:“MGIE”模型可以执行常见的Photoshop风格的编辑,如裁剪、调整大小、旋转、翻转和添加滤镜。该模型还可以应用更高级的编辑,例如更改背景,添加或删除对象以及混合图像。

  全局图像优化:“MGIE”模型可以优化图像的整体质量,如亮度、对比度、清晰度和色彩平衡。该模型还可以应用素描、绘画和卡通等艺术效果。

  局部编辑:“MGIE”模型可以编辑图像中的特定区域或对象,如脸部、眼睛、头发、衣服和配饰。该模型还可以修改这些区域或对象的属性,如形状、大小、颜色、纹理和样式。

  目前,“MGIE”模型是GitHub上的一个开源项目,用户可以在那里找到代码、数据和预训练的模型。该项目还提供了一个演示功能,演示如何使用“MGIE”模型完成各种编辑任务。用户还可以通过Hugging Face Spaces的网络演示在线试用“MGIE”模型,Hugging Face Spaces是一个分享和协作机器学习项目的平台。

  另外,“MGIE”模型被设计为易于使用和灵活定制。用户可以提供编辑图像的自然语言指令,“MGIE”模型将生成编辑后的图像以及衍生的指令。用户还可以向“MGIE”模型提供反馈,以改进编辑或请求不同的编辑。“MGIE”模型还可以与需要图像编辑功能的其他应用程序或平台集成。

延伸阅读:

Powered by Froala Editor