ChatGPT重磅升级,将支持语音输入输出和图像识别对话能力
就在几天前,OpenAI公司发布了最新版文生图AI生成器DALL·E 3。才过去几天,OpenAI再次对其人工智能聊天机器人ChatGPT进行了新的升级,在这次升级中,ChatGPT将同时支持用户的语音提示(voice prompts)和他们上传的图片。
这一功能升级将使用户能够与ChatGPT进行来回对话,就像他们与亚马逊的Alexa、苹果的Siri或谷歌助手(Google Assistant)交流对话的方式一样,并要求ChatGPT能够分析并对用户上传的任何图像做出反应,例如翻译标识,或者在用户上传图像的文本中要求识别物体。
据报道,语音功能将只在OpenAI的ChatGPT的Android和iOS版本的移动应用程序上可用。而图像输入将在移动应用程序和桌面应用均可使用。
OpenAI公司表示,这些功能由其专有的语音识别、语言合成和视觉模型提供支持,并将在未来两周内向订阅ChatGPT Plus和Enterprise(企业版)的用户开放。据该公司称,包括开发人员在内的其他用户群体将很快获得这些功能。
在OpenAI公司的官方博客中,语音对话功能将允许用户通过简单的说话和ChatGPT来谈论任何事情。用户只需要从五个声音选项中选择一个,说出他们想要的,ChatGPT聊天机器人就会根据选择的声音来提供答案。例如,用户可以要求ChatGPT说一个睡前故事,或者在餐桌上就正在进行的辩论提出问题。
OpenAI公司通过近乎实时的语音转文本和文本转语音模型来实现上述这些功能,将输入的语音转换为文本,将该文本输入OpenAI的底层大语言模型GPT-4以提供响应,最后将该文本转换回用户选择的语音。OpenAI公司称,公司目前已经与多名声音艺术家合作,为合成语音创造了类似人类的声音。
语音输入为ChatGPT增加了对话功能,而对图像的支持则赋予了其另一个强大功能,用户只需点击一张图片,就可以将其添加到聊天对话中,并提出潜在的问题。ChatGPT将在附带文本的上下文中分析图像并生成答案。它甚至可以围绕这个话题进行来回的对话。
例如,有了这个新功能,ChatGPT可以帮助修理自行车,帮助解决数学问题,甚至讨论你刚刚参观的纪念碑的历史。
这些新功能似乎大大增强了ChatGPT的实用性,OpenAI现在选择部署它们是值得注意的,因为该公司没有选择等到预期的GPT-4.5或GPT-5大语言模型发布后再推出新的功能。
OpenAI在其官方博客中提到,我们相信逐步提供我们的新功能和工具,这使我们能够随着时间的推移进行改进和完善风险缓解,同时也为未来更强大的系统做好准备。随着先进的语音和视觉模型的出现,这一战略变得更加重要。
为了防止其语音合成功能被滥用,比如这可能被滥用于欺诈等行为,OpenAI公司已将其限制在语音聊天和某些经批准的合作伙伴关系中。其中包括与Spotify的合作,这家音乐平台正在帮助其播客将其内容转录成不同的语言,同时保留自己的声音。
同样,为了避免图像识别带来的隐私和准确性问题,OpenAI公司还限制了ChatGPT对话机器人对输入图像中出现的人进行分析和直接陈述的能力。
据报道,上述这些新功能预计也将面向非付费用户提供,但该公司尚未透露具体的时间表。
延伸阅读:
- OpenAI发布最新版文生图AI生成器DALL·E 3,将和ChatGPT集成
- OpenAI发布ChatGPT企业版
- OpenAI首笔收购的Global Illumination,后者做了一款开源沙盒大型多人在线角色扮演游戏
- 传OpenAI计划推出一个在线市场,开发者可以交易自己的人工智能模型
- OpenAI发布Shap-E模型,文本提示即可转换成3D对象
- OpenAI将发布企业版订阅服务ChatGPT Business
- OpenAI发布AI语言模型最新版本GPT-4
Powered by Froala Editor