OpenAI的Whisper带来了音频到文本转录的革命

在最近的OpenAIDevDay 活动中，人们的注意力集中在GPT-4 Turbo 和定制 GPT的发布上，以及各自的人工智能“App Store ”。

尽管这些引起了媒体和用户的关注，但有一个被低估的参与者，几天后，现在值得更深入的评估。

我们谈论的是 Whisper V3，人工智能音频到文本转录，与标题GPT-4相比，它是一颗隐藏的宝石。与ChatGPT或DALL·E不同，Whisper V3是开源的，并且已经可以通过Hugging Face或Replicate等平台免费在线获取。

预计很快就会有各种桌面客户端，例如 Buzz，它已经与Whisper V2一起运行。

OpenAI 的 Whisper 的前后对比

OpenAI 的 Whisper在音频到文本转录中标记了前后。直到一年前，免费工具还存在大量错误，但Whisper V2成功说服了许多用户。

随着Whisper V3的到来，它被认为是音频转文本转录领域的 ChatGPT，尽管其优点是完全免费。软件开发人员肯定会在不久的将来开始在他们的应用程序中实现它。

Whisper V3的多功能性使其非常适合简单的转录任务和更复杂的语音辅助应用。

Whisper V3 为我们提供了什么

该模型已经接受了超过 100 万小时的标记音频和超过400 万小时的伪标记音频的训练。与前身相比，Whisper V3已成功减少 10-20% 的错误。在西班牙语中，其错误率低于 5%，成为该模型理解最好的语言之一。

Whisper V3 的一个突出特点是它的多任务处理能力，使其能够识别和翻译多种语言。此外，它还可以自动识别同一对话中的语言变化，提供卓越的多功能性。

OpenAI为Whisper V3提供了不同尺寸的模型，从小于1 GB VRAM 的小型模型到具有15.5 亿个参数、需要约10 GB VRAM 的大型模型。这为用户提供了灵活性，适应各种应用和需求。



郑重声明：本文版权归原作者所有，转载文章仅为传播更多信息之目的，如作者信息标记有误，请第一时间联系我们修改或删除，多谢。