首页 要闻 > 正文

OpenAI的Whisper带来了音频到文本转录的革命

在最近的OpenAIDevDay 活动中,人们的注意力集中在GPT-4 Turbo 和定制 GPT的发布上,以及各自的人工智能“App Store ”。

尽管这些引起了媒体和用户的关注,但有一个被低估的参与者,几天后,现在值得更深入的评估。

我们谈论的是 Whisper V3,人工智能音频到文本转录,与标题GPT-4相比,它是一颗隐藏的宝石。与ChatGPT或DALL·E不同,Whisper V3是开源的,并且已经可以通过Hugging Face或Replicate等平台免费在线获取。

预计很快就会有各种桌面客户端,例如 Buzz,它已经与Whisper V2一起运行。

OpenAI 的 Whisper 的前后对比

OpenAI 的 Whisper在音频到文本转录中标记了前后。直到一年前,免费工具还存在大量错误,但Whisper V2成功说服了许多用户。

随着Whisper V3的到来,它被认为是音频转文本转录领域的 ChatGPT,尽管其优点是完全免费。软件开发人员肯定会在不久的将来开始在他们的应用程序中实现它。

Whisper V3的多功能性使其非常适合简单的转录任务和更复杂的语音辅助应用。

Whisper V3 为我们提供了什么

该模型已经接受了超过 100 万小时的标记音频和超过400 万小时的伪标记音频的训练。与前身相比,Whisper V3已成功减少 10-20% 的错误。在西班牙语中,其错误率低于 5%,成为该模型理解最好的语言之一。

Whisper V3 的一个突出特点是它的多任务处理能力,使其能够识别和翻译多种语言。此外,它还可以自动识别同一对话中的语言变化,提供卓越的多功能性。

OpenAI为Whisper V3提供了不同尺寸的模型,从小于1 GB VRAM 的小型模型到具有15.5 亿个参数、需要约10 GB VRAM 的大型模型。这为用户提供了灵活性,适应各种应用和需求。

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。