首页 Metaverse 苹果公司研究人员发布训练多模态模型的最新方法
苹果公司研究人员发布训练多模态模型的最新方法

苹果公司研究人员发布训练多模态模型的最新方法

  近日,据海外媒体报道,苹果(Apple)公司的研究人员开发出了在文本和图像上训练大语言模型的新方法,从而实现更强大、更灵活的人工智能系统,这可能是在人工智能以及未来苹果公司产品方面的重大进步。

  在一篇名为“MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training”的研究论文中,展示了如何细致地结合不同类型的训练数据和模型架构,从而在一系列人工智能基准测试中获得最佳的性能。

  研究人员解释称,我们证明,使用图像标题、图像文本融合数据和纯文本数据的混合进行大规模多模态预训练,对于在多个基准测试中获得最佳的结果至关重要。通过在跨越视觉和语言信息的不同数据集上训练模型,MM1模型能够在图像字幕、视觉问题回答和自然语言推理等任务上表现出色。

  研究人员还发现,图像编码器(image encoder)的选择和输入图像的分辨率对模型的性能有重要影响。他们提到,我们表明,图像编码器与图像分辨率和图像标记计数一起具有实质性影响,而视觉语言连接器(vision-language connector)设计的重要性相对可以忽略不计。这表明,这些多模态模型的视觉组件的持续缩放(continued scaling)和细化将是解锁进一步能力的关键。

  令人惊讶的是,300亿个参数的MM1模型显示出强大的上下文学习能力,这可以让它使用几个few-shot的“思维链”(chain-of-thought)提示对多个输入图像执行多步推理。这表明大多模态模型有潜力解决需要基础语言理解和生成的复杂开放式问题。

  另据消息称,苹果公司正在开发一个名为“Ajax”的大语言模型框架,以及一个内部称为“Apple GPT”的聊天机器人。苹果公司的目标是将这些技术整合到Siri、Messages、Apple Music以及其他应用和服务中。例如,人工智能可用于自动生成个性化播放列表,协助开发人员编写代码,或参与开放式对话和任务完成。

  苹果公司首席执行官Tim Cook在最近的财报电话会议上表示,我们将人工智能和机器学习视为基础技术,它们几乎是我们推出的每一款产品不可或缺的一部分。我不会详细说明它是什么,但你可以打赌,我们正在投资人工智能。我们将负责任地做这件事,随着时间的推移,你将看到产品的进步,这些技术是它们的核心。

延伸阅读:

Powered by Froala Editor