首页 互联网 > 正文

OpenAI开始为ChatGPT推出高级语音模式

数周前,OpenAI 推出了类似 Her 的音频界面,震惊了世界。现在,OpenAI 终于开始推出其先进的语音模式。截至目前,该公司已开始向少数 ChatGPT Plus 用户推出该模式。当它在春季更新活动上与 GPT-40 一起推出时,OpenAI 遭到了批评,因为语音模式与好莱坞演员斯嘉丽·约翰逊 (Scarlett Johansson) 有着惊人的相似之处,后者曾在电影制片人斯派克·琼斯 (Spike Jonze) 的《她》中为 AI 系统配音。高级模式原定于 6 月某个时候以 alpha 版本发布,但 OpenAI 将发布时间推迟了一个月。

新的语音模式根本不是带语音的 ChatGPT。在活动期间,OpenAI 的工作人员演示了它如何像人类一样进行对话,如何参与群组对话,以及如何根据周围的对话类型进行调整。高级模式的推出延迟是由于 OpenAI 正在不断改进模型,尤其是提高其检测和拒绝某些内容的能力。

据报道,OpenAI 已与 100 多名外部专家或红队成员一起测试了该语音模型的能力。今年 5 月,该公司首次展示该语音模型时,由于其与约翰逊的声音惊人地相似,它引起了某些部门的批评。在演示之后,OpenAI 陷入争议,因为这位女演员说她曾要求首席执行官 Sam Altman 不要在任何 OpenAI 模型中使用她的声音。她后来寻求法律顾问,但 OpenAI 否认他们使用了约翰逊的声音。不过,该公司后来删除了该声音。

ChatGPT 上目前提供语音模式,但它与高级语音模式截然不同。旧版语音模型依赖于三个独立模型 - 一个用于将语音转换为文本,另一个用于将文本转换为语音,以及 GPT-4 用于处理提示。然而,GPT-4o 具有多模式功能,能够执行各种任务。

如何使用高级语音模式?

虽然高级语音模式尚未向更广泛的 ChatGPT Plus 用户推出,但以下是有关如何在该创新功能广泛可用时使用它的一些步骤。

为了使用高级语音模式开始对话,用户需要选择即将出现在麦克风图标旁边的语音图标。

用户开始对话后,将进入另一个屏幕,通过选择麦克风图标,用户可以静音或取消静音麦克风。用户还可以通过按下右下角的红色图标来结束对话。

在通话过程中,用户可以在标准语音模式和高级语音模式之间切换,可以从屏幕顶部中央进行选择。

OpenAI 表示,高级语音模式(音频输入和输出)的使用将受到日常限制,确切的限制可能会发生变化。当用户只剩下三分钟的音频时,ChatGPT 应用程序将显示警告。而且,一旦达到限制,对话将立即结束,随后将提示用户使用标准语音模式。

有关高级语音模式的更多信息

OpenAI 表示,目前高级语音模式无法创建记忆或访问以前的记忆,也无法访问自定义指令。由于不支持记忆或自定义指令,高级语音模式无法恢复文本或标准语音对话。

关于语音记录中的不规则性,OpenAI 表示,与 GPT-4o 的语音对话本质上是多模式的,允许用户和模型之间进行音频交换。因此,转录的音频可能并不总是与原始对话一致。

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。