很多文章的报道都是由微观而宏观,今日小编讲给大家带来的关于Google开源扬声器Diarization AI技术声称准确度达到92%的资讯也不例外,希翼可以在一定的程度上开阔你们的视野!y有对Google开源扬声器Diarization AI技术声称准确度达到92%这篇文章感兴趣的小伙伴可以一起来看看
Google在最近的博客文章中宣布,他们已经开放了他们的扬声器二值化技术的来源,该技术能够以较高的准确率区分人的声音。Google可以通过将包括多个参与者的音频流划分为每个参与者同质的片段来做到这一点。
将语音划分为同类片段具有许多应用。Google的研究科学家Chong Wang解释道:
通过解决“谁在何时说话”的问题,说话者区分在许多重要场景中都得到了应用,例如了解医疗对话,视频字幕等等。
能够准确地划分对话,可以提高在线和离线数字化系统的质量。最新的《Annals家庭医学杂志》报道说,这种好处在医疗保健行业具有许多实际好处。
医生通常会在11小时的工作日中,在电子健康记录(EHR)中花费约6个小时来记录文档。因此,一项研究发现,超过一半的接受调查的医生报告至少有一种倦怠症状。
从历史上看,使用监督学习方法来训练语音听写系统向来是一项挑战。王解释原因:
使用监督学习方法来训练这些系统是具有挑战性的-与标准监督分类任务不同,一个强大的区分模型需要能够将新人与未参与训练的不同语音段相关联。重要的是,这限制了在线和离线数字化系统的质量。
在流音频输入上使用在线扬声器二值化可以检测到不同的扬声器,如下图所示,其底轴颜色不同。