首页 Metaverse Meta发布语音克隆程序Audiobox,目前仅限研究领域用途
Meta发布语音克隆程序Audiobox,目前仅限研究领域用途

Meta发布语音克隆程序Audiobox,目前仅限研究领域用途

  语音克隆(voice cloning)是当下因生成式人工智能技术而迅速崛起的领域之一。这个术语指的是通过技术复制一个人的声音风格,比如音高、音色、节奏、习惯和独特的发音等。

  近日,据海外媒体报道,Meta公司发布了自己的免费的语音克隆程序Audiobox。根据Facebook人工智能研究(FAIR)实验室的研究人员在Meta网站上发布的信息,Audiobox被描述为建立在Meta在语音技术领域早期成果Voicebox基础上的“音频生成的新基础研究模型”。

  在Audiobox的网站上提到,它可以通过语音输入和自然语言文本提示的组合来生成声音和声音效果,这使得为各种用例创建自定义音频变得更加容易。据报道,只要输入一个你想要克隆的声音说的句子,或者你想要生成的声音的描述,Audiobox就会完成剩下的工作。用户还可以录制自己的声音,并通过Audiobox进行克隆。

  Meta公司进一步指出,其创建了“一系列的模型”,一个用于语音模仿,另一个则用于生成更多的环境声音和声音效果,如狗叫、警笛或儿童玩耍,这些模型都“建立在共享的自我监督模型Audiobox SSL上”。自我监督学习(SSL)是一种机器学习深度学习技术,其中人工智能算法被分配为未标记的数据生成自己的标签,而不是监督学习,其中数据可能已经被标记。

  Facebook人工智能研究(FAIR)实验室的研究人员发表了一篇论文,解释了他们采用SSL方法的一些方法和基本原理,其中写道:“因为标记的数据并不总是可用或高质量的,而数据缩放(data scaling)是泛化的关键,我们的策略是使用音频来训练这个基础模型,而不需要任何监督,例如转录文本、字幕或属性标签,这些可以在更大的数量中找到。”

  当然,大多数领先的生成式人工智能模型都严重依赖于人类生成的数据来训练如何创建新内容,Audiobox也不例外。Facebook人工智能研究(FAIR)实验室的研究人员依赖于“16万小时的语音(主要是英语)、2万小时的音乐和6万小时的声音样本”。这些样本包括有声读物、播客、朗读的句子、演讲、对话和野外录音,包括各种声学条件和非语言声音。为了确保公平,并充分代表来自不同群体的人,样本包括来自150多个国家和地区、讲200多种不同主要语言的人。

  研究报告并没有具体说明这些数据的来源以及是否属于公共领域,但这无疑是一个重要的问题,因为许多艺术家、作家和音乐出版商起诉大量人工智能公司,因为这些公司在未经创作者/版权所有者明确同意的情况下对可能受版权保护的材料进行训练。

  对此,Meta公司的一位发言人对海外媒体回应道:“Audiobox是在公开可用和许可的数据集上进行训练的,”但没有具体说明这些数据集是在哪里获得的。

  为了展示Audiobox的功能,Meta还发布了一系列视频演示。其中一个视频演示告诉你可以让你录下用户谈论对话的声音,并复制他们的声音。然后,用户可以输入他们想要克隆出来的声音说的话,然后听到克隆出来的声音给他们进行朗读。

  Audiobox还允许用户从文本描述中生成全新的声音,比如“低沉的女性声音”“来自美国的高音男性演讲者”等,以及重新设计用户录制的声音,或者输入文本提示来生成全新的声音。

  不过,Meta在Audiobox的演示中包含了一个免责声明,指出“这是一个研究演示,不得用于任何商业目的”,并且它仅限于“伊利诺伊州或德克萨斯州”以外的人,因为这些州的法律禁止进行Audiobox为演示所做的那种音频收集。

  Meta公司的发言人表示,作为我们对负责任的研究行为的持续承诺的一部分,我们很快就会邀请研究人员和学术机构申请资助,用Audiobox进行安全和负责任的研究。我们将Audiobox发布给一组精心挑选的研究人员和学术机构,他们在语音研究方面有良好的记录,以帮助进一步发展这一研究领域的最新技术,并确保我们有多样化的合作伙伴来解决这项工作中负责任的人工智能方面的问题。

延伸阅读:

Powered by Froala Editor