首页 Metaverse Meta发布语音生成模型Voicebox,可支持6种语言
Meta发布语音生成模型Voicebox,可支持6种语言

Meta发布语音生成模型Voicebox,可支持6种语言

  近日,据海外媒体报道,Meta公司在语音生成人工智能领域取得了重大进展,并推出了一款名为Voicebox的人工智能模型。这一发展代表了生成式人工智能研究向前迈出的重要一步,展示了未来在众多领域的潜在应用。

  据报道,Voicebox的显著特点是利用上下文学习的能力,它能够执行没有被明确训练过的任务。这使得Voicebox能够产生高质量的音频剪辑和编辑预先录制的音频,例如删除不需要的声音,如背景中的汽车喇叭声或狗叫声,同时保留音频的内容和风格。另外,Voicebox模型也是多语言的,能够生成六种不同语言的语音。

  像Voicebox这样的多用途生成式人工智能模型的出现也或许将令人兴奋的未来应用。比如,它可以为虚拟助手和虚拟世界中的NPC提供自然的声音,使视障人士能够听到由人工智能读出的朋友发来的书面信息,并为创作者提供创造和编辑视频音轨的创新工具,以及许多其他可能性。

  Voicebox的具体能力表现在:

  结合上下文的文本到语音合成:Voicebox可以使用一个简短的音频样本,短至两秒钟,以匹配文本到语音生成的音频样式。

  语音编辑和降噪:Voicebox可以在不需要重新录制整个语音的情况下再现语音中断的部分或替换发音错误的单词。从本质上讲,它就像一个音频编辑的橡皮擦,为常见的音频挑战提供了一个独特的解决方案。

  跨语言风格迁移:Voicebox可以生成六种语言中的任何一种文本的阅读,即使样本语音和文本是不同的语言。这种能力可以帮助人们真诚地交流,即使他们没有共同的语言。

  多样化的语音采样:由于其多样化的数据学习,Voicebox可以在六种语言中生成代表现实世界对话多样性的语音。

延伸阅读:

Powered by Froala Editor