Meta AI发布“Seamless Communication”新人工智能模型,可以实现更自然、更真实的跨语言交流
近日,据海外媒体报道,Meta AI的研究人员发布了一个名为“Seamless Communication”的新人工智能模型,旨在实现更自然、更真实的跨语言交流,这从根本上使通用语音翻译器(Universal Speech Translator)的概念成为现实。
据报道,其旗舰模型Seamless将其他三种型号(SeamlessExpressive、SeamlessStreaming和SeamlessM4T v2)的功能合并到一个统一的系统中。根据研究报告,Seamless是“第一个公开可用的系统,可以实时解锁富有表现力的跨语言交流。”
作为一个通用的实时翻译工具,Seamless是如何工作的。Seamless代表了使用人工智能进行实时语音交流的新领域。它结合了三种复杂的神经网络模型,可以在100多种口语和书面语之间进行实时翻译,同时保留说话者的声音风格、情感和韵律。
SeamlessExpressive专注于在语言间翻译时保留说话者的声音风格和情感上的细微差别。正如研究论文中所描述的那样,“翻译应该捕捉人类表达的细微差别。虽然现有的翻译工具能够熟练地捕捉对话中的内容,但它们通常依赖单调的机械式的文本到语音系统进行输出。”
SeamlessStreaming可以实现近乎实时的翻译,只有大约两秒钟的延迟。研究人员表示,这是“第一个大规模多语言模型”,可以在近100种口语和书面语之间提供如此快的翻译速度。
第三个模型SeamlessM4T v2是其他两个模型的基础。这是去年推出的原版SeamlessM4T的升级版。论文称,新的架构“提高了文本和语音输出之间的一致性”。
Meta AI的研究人员表示,总而言之,Seamless让我们看到了将通用语音翻译器从科幻概念转变为现实应用所需的关键技术基础。
这些模型的功能可以实现全新的基于语音的交流体验,从使用智能眼镜的实时多语言对话到自动配音的视频和播客。研究人员表示,它还可以帮助打破其他沟通困难的人的语言障碍。
然而,研究人员承认,这项技术也可能被滥用于语音网络钓鱼诈骗、深度造假和其他有害应用。为了促进模型的安全和负责任的使用,他们实施了几项措施,包括音频水印和其他新技术,以减少有害输出。
延伸阅读:
- Meta发布图像编辑工具Emu Edit和视频生成工具Emu Video
- Meta发布AI聊天机器人,将在旗下消息平台及智能眼镜等软硬件产品中集成
- Meta计划发布其人工智能模型的商业版本,将与OpenAI、Google等公司进行竞争
- Meta发布语音生成模型Voicebox,可支持6种语言
Powered by Froala Editor