Stability AI发布文本到图像大模型DeepFloyd IF-Metaverse-映魅咨询-imconsultancy

　　近日，据海外媒体报道，Stability AI联合其多模态人工智能实验室DeepFloyd发布了DeepFloyd IF，这是一个全新的文本到图像的级联像素扩散模型。目前该模型是在非商用和研究允许的前提下发布的，未来可能会发布开源版本。

　　DeepFloyd IF的几个特点包括了：

　　深度文本提示理解（deep text prompt understanding）：该模型使用T5-XXL-1.1作为文本编码器，具有许多文本-图像交叉注意层，确保提示和图像之间更好地对齐。

　　在生成的图像旁边放置连贯清晰的文本（coherent and clear text alongside generated images）：DeepFloyd IF可以生成包含具有不同属性和空间关系的对象的图像。

　　高度的真实感（high degree of photorealism）：该模型在COCO数据集上取得了令人印象深刻的6.66的zero-shot FID分数。

　　生成非标准宽高比的图像（aspect ratio shift）：该模型可以生成非标准宽高比的图像，包括垂直、水平和标准正方形宽高比。

　　Zero-shot图像到图像的转换（zero-shot image-to-image translations）：该模型可以修改图像的样式、模式和细节，同时保留其基本形式。

　　据报道，DeepFloyd IF的模块化、级联、像素扩散设计由几个协同作用的神经模块组成。该模型在像素空间中工作，使用不同分辨率的单独训练模型以级联方式处理高分辨率数据。这包括生成低分辨率样本的基本模型和生成高分辨率图像的连续超分辨率模型。

　　该模型是在一个自定义的高质量LAION-A数据集上训练的，该数据集包含10亿对（图像、文本），是LAION-5B数据集的英语部分的一个子集。DeepFloyd的自定义过滤器用于删除水印和其他不适当的内容。

　　目前，DeepFloyd IF是在研究许可下发布的。研究人员的目标是鼓励在艺术、设计、故事讲述、虚拟现实和可访问性等领域开发新的应用程序。为了激发潜在的研究，研究人员提出了几个有关技术、学术和伦理研究问题。

　　技术问题包括：

　　优化DeepFloyd IF模型以提高性能、可伸缩性和效率；通过改进采样、引导或微调模型来提高输出质量；应用技术用于修改稳定扩散输出到DeepFloyd IF。

　　学术研究问题包括：

　　探讨预训练在迁移学习中的作用；增强模型对图像生成的控制；通过集成多种模式，扩展模型的功能，使其超越文本到图像的合成；评估模型的可解释性，以提高对生成图像视觉特征的理解。

　　伦理研究问题包括：

　　在DeepFloyd IF中对偏见的识别和减少偏见；评估该模式对社交媒体和内容生成的影响；开发一种有效的利用该模型的假图像检测器。