新德里的研究人员开发了一种新的人工智能 (AI) 模型,该模型可以利用人类感知语音的方式显着提高现实场景中的音频质量。俄亥俄州立大学的研究小组发现,人们对音质的主观评价可以与语音增强模型相结合,以达到通过客观指标衡量的更好的语音质量。
IEEE/ACM Transactions on Audio, Speech, and Language Processing 杂志中描述的新模型在最大限度地减少噪声音频(可能会扰乱听众真正想要听到的内容的不需要的声音)方面优于其他标准方法。
研究人员表示,模型生成的预测质量分数与人类做出的判断密切相关。
限制背景噪声的传统措施是使用人工智能算法从所需信号中提取噪声。
然而,该研究的合著者、俄亥俄州立大学副教授唐纳德·威廉姆森表示,这些客观方法并不总是与听众对演讲易于理解的评估一致。
威廉姆森在一份声明中说:“这项研究与其他研究的不同之处在于,我们试图利用感知来训练模型以消除不需要的声音。”
研究人员表示,如果人们可以感知到信号质量的某些信息,那么该模型就可以将其用作附加信息来学习并更好地消除噪声。
该研究的重点是改进单声道语音增强,即来自单个音频通道(例如一个麦克风)的语音。