首页 Metaverse OpenAI发布语音克隆模型Voice Engine,目前仅向少量合作伙伴开放使用
OpenAI发布语音克隆模型Voice Engine,目前仅向少量合作伙伴开放使用

OpenAI发布语音克隆模型Voice Engine,目前仅向少量合作伙伴开放使用

  近日,据海外媒体报道,人工智能公司OpenAI发布了最新的人工智能模型:Voice Engine,顾名思义,这是一个和语音相关的模型。据报道,Voice Engine自2022年以来就在开发中,目前为OpenAI的文本到语音(text-to-speech)API以及本月早些时候发布的新的ChatGPT语音和朗读(Read Aloud)功能提供支持。

  另外,Voice Engine模型还可以进行语音克隆。它的工作原理是这样的:一个人通过电话或电脑麦克风录下一段15秒的声音片段,OpenAI的Voice Engine就会生成“与原始说话者非常相似的自然语音”。之后,就可以用来大声说出人类用户输入的任何文本。

  这一技术显然对那些经常录制自己讲话的人有着巨大的影响和作用,无论是播客、配音艺术家、口语表演者、有声书和广告解说、游戏玩家、流媒体主播、客户服务代理、销售人员,还是许多其他职业。

  当然,这个技术方向的创新公司和产品也不少。比如ElevenLabs、Captions、Meta、WellSaid Labs、MyShell等。而OpenAI进一步强调了Voice Engine为非语言个体(non-verbal individuals)提供支持的能力,为他们提供独特的、非机器人的声音,并为那些有语言障碍或学习需要的人提供治疗和教育项目的帮助。

  OpenAI在其发布Voice Engine的博客文章中表示,到目前为止,Voice Engine只向“一小部分值得信赖的合作伙伴”提供。这些合作伙伴包括:

  Age of Learning:教育技术公司,Age of Learning使用Voice Engine和GPT-4生成预先编写的实时个性化语音内容,为不同的学生扩展阅读辅助和提供互动体验;

  HeyGen:人工智能视觉应用,使创作者和企业能够将他们的内容翻译成多种语言,其使用Voice Engine进行视频翻译,创建具有多语言声音的自定义数字人化身,保留原始说话者的口音;

  Dimagi:为社区卫生工作者提供工具的软件公司,Dimagi使用Voice Engine和GPT-4以各种语言为这些工作者提供互动反馈,从而改善了偏远地区的基本医疗卫生服务的提供;

  Livox:人工智能应用程序,适用于有语言和听力障碍的人使用的辅助和替代交流(AAC)设备,Livox集成了Voice Engine,为不会说话的人提供独特的、非机器人的语言声音;

  布朗大学的非营利性医疗和教学机构Norman Prince神经科学研究所(The Norman Prince Neurosciences Institute):该研究所致力于帮助那些患有神经系统疾病和障碍的人,研究所使用Voice Engine来帮助那些有语言障碍的人使用人工智能版本的声音。该研究所已经成功地恢复了一位脑肿瘤患者的语言能力,使用的音频样本来自她的一个学校项目视频;

  但就目前而言,语音克隆技术的能力还很有限,并且OpenAI也没有允许公众用户使用Voice Engine。该公司在公司博客中提到,由于合成语音可能会被滥用,我们正在采取谨慎和明智的方式进行更广泛的发布。我们希望就负责任地部署合成声音以及社会如何适应这些新能力展开对话。基于这些对话和小规模测试的结果,我们将对是否以及如何大规模部署这项技术做出更明智的决定。

  此外,OpenAI还实施了水印和主动监控等安全措施,以确保这项技术的负责任使用。

延伸阅读:

Powered by Froala Editor