苹果公司发布开源AI模型MGIE，可以根据自然语言指令进行图像编辑-Metaverse-映魅咨询-imconsultancy

苹果公司发布开源AI模型MGIE，可以根据自然语言指令进行图像编辑

　　近日，据海外媒体报道，苹果公司发布了名为“MGIE”的全新的开源人工智能模型，该模型可以根据自然语言指令编辑图像。“MGIE”的英文全名为：MLLM-Guided Image Editing，它利用多模态大语言模型（MLLMs）来解释用户命令并执行像素级的编辑操作。目前，“MGIE”可以处理各种编辑需求，如Photoshop风格的修改、全局照片优化和局部编辑等。

　　“MGIE”模型是苹果公司和加州大学圣巴巴拉分校的研究人员合作的成果，并在2024年的ICLR（International Conference on Learning Representations）大会上发表的一篇论文中提出。

　　“MGIE”模型是基于使用多模态大语言模型（MLLMs）的想法，多模态大语言模型（MLLMs）是一种强大的人工智能模型，可以处理文本和图像，以增强基于指令的图像编辑。多模态大语言模型（MLLMs）在跨模态理解和视觉感知响应生成方面表现出卓越的能力，但尚未广泛应用于图像编辑任务。

　　据报道，“MGIE”模型通过两种方式将多模态大语言模型（MLLMs）集成到图像编辑的过程中。首先，它使用多模态大语言模型（MLLMs）从用户输入中派生出表达性指令。这些指令说明简洁明了，为编辑过程提供了明确的指导。例如，输入“使天空更蓝”，“MGIE”模型可以产生“将天空区域的饱和度增加20%”的指令。

　　另外，“MGIE”模型使用多模态大语言模型（MLLMs）来生成视觉想象，即期望编辑的图像的潜在表示。这种表示抓住了图像编辑的本质，并可用于指导像素级操作。“MGIE”模型采用了一种新颖的端到端训练方案，共同优化了指令派生、视觉想象和图像编辑模块。

　　“MGIE”模型的功能非常强大，它可以处理广泛的图像编辑场景，从简单的颜色调整到复杂的编辑对象操作。该模型还可以根据用户的偏好执行全局和局部编辑。

　　富有表现力的基于指令的编辑：“MGIE”模型可以生成简洁清晰的指令，有效地指导编辑过程。这不仅提高了编辑的质量，还增强了整体的用户体验。

　　Photoshop风格的修改：“MGIE”模型可以执行常见的Photoshop风格的编辑，如裁剪、调整大小、旋转、翻转和添加滤镜。该模型还可以应用更高级的编辑，例如更改背景，添加或删除对象以及混合图像。

　　全局图像优化：“MGIE”模型可以优化图像的整体质量，如亮度、对比度、清晰度和色彩平衡。该模型还可以应用素描、绘画和卡通等艺术效果。

　　局部编辑：“MGIE”模型可以编辑图像中的特定区域或对象，如脸部、眼睛、头发、衣服和配饰。该模型还可以修改这些区域或对象的属性，如形状、大小、颜色、纹理和样式。

　　目前，“MGIE”模型是GitHub上的一个开源项目，用户可以在那里找到代码、数据和预训练的模型。该项目还提供了一个演示功能，演示如何使用“MGIE”模型完成各种编辑任务。用户还可以通过Hugging Face Spaces的网络演示在线试用“MGIE”模型，Hugging Face Spaces是一个分享和协作机器学习项目的平台。

　　另外，“MGIE”模型被设计为易于使用和灵活定制。用户可以提供编辑图像的自然语言指令，“MGIE”模型将生成编辑后的图像以及衍生的指令。用户还可以向“MGIE”模型提供反馈，以改进编辑或请求不同的编辑。“MGIE”模型还可以与需要图像编辑功能的其他应用程序或平台集成。

延伸阅读：

苹果公司发布开源AI模型MGIE，可以根据自然语言指令进行图像编辑

Cimba.AI融资125万美元，为企业提供定制AI Agent服务

电子商务软件开发商Shopify发布文案生成、语义搜索等多项AI新功能

苹果公司发布开源AI模型MGIE，可以根据自然语言指令进行图像编辑

Cimba.AI融资125万美元，为企业提供定制AI Agent服务

电子商务软件开发商Shopify发布文案生成、语义搜索等多项AI新功能

相关推荐

与量子计算公司Multiverse Computing合作，博世将在西班牙打造“数字孪生”智能工厂

英伟达分享在元宇宙领域的最新技术进展，并推出新的3D内容开发工具包

苹果公司CEO蒂姆·库克称大多数人无法定义什么是元宇宙，但是AR会是未来的趋势