首页 Metaverse 大语言模型发展开始遇到瓶颈,“小语言模型”或将兴起
大语言模型发展开始遇到瓶颈,“小语言模型”或将兴起

大语言模型发展开始遇到瓶颈,“小语言模型”或将兴起

  在人工智能技术的竞争中,科技巨头们一直在竞相构建越来越大的语言模型。然而,随着大语言模型的进展出现了一些停滞的迹象,研究人员和开发者越来越多地将注意力转向小语言模型(small language models)。

  最近,根据Vellum和HuggingFace发布的大语言模型性能对比显示,大语言模型之间的性能差距正在迅速缩小。这种趋势在多项选择题、推理和数学问题等特定任务中尤为明显,在这些任务中,顶尖的大语言模型之间的表现差异很小。例如,在多项选择题任务中,Claude 3 Opus、GPT-4和Gemini Ultra的准确率都在83%以上。而在推理任务中,Claude 3 Opus、GPT-4和Gemini 1.5 Pro的准确率都超过了92%。

  有趣的是,一些较小的模型,如Mixtral 8x7B和Llama 2 - 70B,在某些任务比如推理和多项选择题,它们的表现却优于一些较大的语言模型。这表明语言模型的大小可能不是性能的唯一决定因素,而架构、训练数据和微调技术等其他方面可能发挥着重要的作用。

  Uber人工智能前负责人、《重启人工智能》(Rebooting AI)一书的作者Gary Marcus表示,一些语言模型在某些方面可能比GPT-4好一点,但没有巨大的飞跃。我想每个人都会说GPT-4是GPT-3.5的一大进步。但是在一年多的时间里没有任何重大飞跃。

  随着大语言模型的性能差距继续缩小,这引发了人们对于大语言模型是否真的开始趋于性能平稳的问题的探讨。如果这种趋势持续下去,可能会对语言模型的未来开发和部署产生重大影响,可能会将重点从简单地增加模型大小转移到探索更有效和更专业的体系结构上。

  大语言模型虽然能力强大,但是也有着明显的缺点。首先,训练大语言模型需要大量的数据,需要数十亿甚至数万亿个参数。这使得训练过程是高度资源密集型的,训练和运行大语言模型所需要的计算能力和能源消耗也是惊人的。其高昂的成本,使得较小的组织或个人很难参与核心大语言模型的开发。在去年麻省理工学院的一次活动上,OpenAI公司的首席执行官Sam Altman表示,训练GPT-4的成本至少为1亿美元。

  另外,需要和大语言模型协同工作的工具和技术的复杂性也有一个非常陡峭的学习曲线,进一步限制了其访问性。从训练到构建和部署模型,开发周期很长,这减缓了模型开发和实验的速度。剑桥大学(University of Cambridge)最近的一篇论文显示,企业需要花费90天或更长时间来部署一个机器学习模型。

  还有一点,大语言模型的另一个重要问题是它们会产生幻觉的倾向,即大语言模型会产生看似合理但实际上并不真实的输出。这源于大语言模型被训练成基于训练数据中的模式来预测下一个最有可能的单词的方式,而不是对信息的真正理解。因此,大语言模型可以自信地做出虚假陈述、编造事实或以荒谬的方式组合不相关的概念。检测和减轻这些幻觉是开发可靠和值得信赖的语言模型的一个持续性挑战。

  Gary Marcus警告说,如果你用大语言模型来解决一个高风险的问题,你不会想要用它侮辱你的客户,或者得到错误的医疗信息,或者用它来冒险驾驶汽车。这仍然是一个问题。

  大语言模型的规模和黑盒特性也使它们难以解释和调试,这对于在模型的输出中建立信任至关重要。训练数据和算法中的偏差可能导致不公平、不准确甚至有害的输出。正如我们在Google Gemini看到的那样,使大语言模型“安全”和可靠的技术也会降低其有效性。此外,大语言模型的集中性质引发了对权力和控制权集中在少数大型科技公司手中的担忧。

  字面上看,小语言模型(small language models)是大语言模型的精简版本,参数更少,设计更简单。小语言模型需要更少的数据和训练时间,只需几分钟或几个小时。而大语言模型则需要几天的时间。这使得小语言模型在较小的设备上能够更有效和直接地实现。

  小语言模型的主要优点之一是它们适合于特定的应用程序。因为它们具有更集中的使用范围并且需要更少的数据,所以与大型通用模型相比,它们可以更容易地针对特定领域或任务进行微调。这使组织能够创建对其特定需求非常有效的小语言模型,例如情感分析、实体识别或特定于领域的问题回答。与使用更通用的模型相比,小语言模型的专门化特性可以提高这些目标应用程序的性能和效率。

  小语言模型的另外一个好处是具有增强隐私和安全性的潜力。使用更小的代码库和更简单的体系结构,小语言模型更容易审计,并且不太可能出现意外漏洞。这使得它们对于处理敏感数据的应用程序很有吸引力,例如在医疗保健或金融领域,因为数据泄露可能会产生严重后果。此外,小语言模型的计算需求减少,使得它们更适合在本地设备或本地服务器上运行,而不是依赖于云基础设施。这种本地处理可以进一步提高数据安全性,降低数据传输过程中的暴露风险。

  与大语言模型相比,小语言模型在其特定领域内更不容易出现未被发现的幻觉问题。小语言模型通常在特定于其预期领域或应用程序的更窄且更有针对性的数据集上进行训练,这有助于模型学习与其任务最相关的模式、词汇表和信息。这减少了产生不相关、意外或不一致输出的可能性。使用更少的参数和更精简的体系结构,小语言模型不太容易放大训练数据中的噪声或错误。

  人工智能公司HuggingFace的首席执行官Clem Delangue表示,高达99%的用例可以使用小语言模型来解决,并预测2024年将是“小语言模型年”。HuggingFace的平台使开发者能够构建、训练和部署机器学习模型,这家公司在今年早些时候宣布与谷歌(Google)建立战略合作伙伴关系。两家公司随后将HuggingFace整合到谷歌的Vertex AI中,允许开发人员通过Google Vertex Model Garden快速部署数千个模型。

  谷歌公司正在积极地追求小语言模型的机会。在今年2月份,谷歌就推出了Gemma,这是一系列新的小语言模型,旨在提高效率和用户友好性。与其他小语言模型一样,Gemma模型可以在各种日常设备上运行,如智能手机、平板电脑或笔记本电脑,而不需要特殊的硬件或优化。

  自从Gemma发布以来,这些小语言模型模特上个月在HuggingFace上的下载量已经超过40万次,而且已经有一些令人兴奋的项目出现了。例如,Cerule是一个强大的图像和语言模型,它结合了Gemma 2B和谷歌的SigLIP,在大量的图像和文本数据集上进行了训练。Cerule利用了高效的数据选择技术,这表明它可以在不需要大量数据或计算的情况下实现高性能。这意味着Cerule可能非常适合新兴的边缘计算用例。

  另一个例子是CodeGemma,它是Gemma的一个专门版本,专注于编码和数学推理。CodeGemma为各种编码相关的任务提供了三种不同的模型,使高级编码工具对开发人员来说更容易访问和高效。

  随着人工智能领域继续探索小语言模型的潜力,更快的开发周期、更高的效率以及根据特定需求定制模型的能力的优势变得越来越明显。小语言模型通过实现具有成本效益和针对性的解决方案,使人工智能的使用更加平民化,并推动各行业的创新。在边缘部署小语言模型为金融、娱乐、汽车系统、教育、电子商务和医疗保健等各个领域的实时、个性化和安全应用程序开辟了新的可能性。

  通过在本地处理数据并减少对云基础设施的依赖,使用小语言模型的边缘计算可以实现更快的响应时间、改进的数据隐私和增强的用户体验。这种去中心化的人工智能方法有可能改变企业和消费者与技术的互动方式,在现实世界中创造更加个性化和直观的体验。由于大语言模型面临着与计算资源相关的挑战,并且可能会遇到性能瓶颈,因此,小语言模型的兴起有望使人工智能生态系统以一种更加深刻的速度发展。

延伸阅读:

Powered by Froala Editor