首页 生活 > 正文

从通话音频诊断语音状况

丰桥工业大学信息技术教育中心 (CITE) 的助理教授 Yuya Hosoda 开发了一种根据通话音频估计人类声带振动音高的方法。在该方法中,通过在复平面上积分从语音的幅度谱和相位谱中提取的特征量来估计基音。通过实验,我们证明了该方法不仅对于频段受通信标准限制的通话音频有效,而且在有背景噪声的环境中也能稳健工作。

细节

为了防止帕金森病等神经退行性疾病的恶化,构音障碍这一早期症状的早期诊断是必要的。构音障碍的特征是声音颤抖和呼吸紊乱。尽管临床测试通过患者的声音来诊断症状,但它们既耗时又费力。此外,在山区等偏远地区进行面对面采访也很困难。因此,在这项研究中,我们的目标是开发一种通过通信设备查房、通过远程医疗自动诊断构音障碍的系统。

在患有构音障碍的患者中,发声期间会出现异常,其中声音是由从喉咙和口腔中的肺部释放的空气产生的声带振动产生的。在这项研究中,我们的目的是估计振动周期(音高)以诊断这些声带振动的状况。到目前为止,基于通过语音频率分析获得的幅度谱的特征量,已经设计出一种对背景噪声具有鲁棒性的基音测量方法。然而,由于通信标准的原因,通过远程医疗的呼叫音频缺乏一些所需的幅度频谱。因此,从信息减少的幅度谱中提取特征量可能会导致基音估计中的错误。

在这项研究中,我们提出了一种方法,除了幅度谱之外,还可以从频率分析的副产品相位谱中提取额外的特征量。推导了时间和频率方向上的相移和音调之间的关系方程,我们验证了可以通过将观察到的相移应用于关系方程来估计音调。基于这一发现,我们从相位谱中提取了新的特征量,以定量评估关系方程的拟合程度。最后,通过在复平面上积分从幅度谱中提取的特征量,我们补偿了通话音频的基音估计中出现的特征量的缺乏,同时保持了对背景噪声的鲁棒性。

该图显示了通话音频的音调估计结果。在之前仅使用幅度谱的研究中,由于频带限制导致信息量减少,因此估计的音调高于原始值。然而,在所提出的方法中,使用与幅度和相位谱相关的特征量从通话音频中准确地估计音调。此外,总螺距误差(GPE)(一种表示发生错误的段的百分比的评估指标)在该方法中改善至 9.5%,而之前的研究为 42.2%。此外,即使对于有背景噪声的通话音频,该方法也能达到 15.2% 的 GPE,表现出鲁棒性。

未来展望

尽管这项研究的重点是音高估计以检测声带振动的异常,但呼吸和口腔异常也会导致构音障碍。为了检测这些症状,已经设计了从幅度谱中提取特征量的方法。然而,相位谱的使用尚未得到充分验证。未来,我们还将致力于从其他情况的相位谱中提取相关特征量。此外,通过综合分析这些特征量,我们的目标是开发一种可以有效地与远程医疗结合使用的构音障碍诊断系统。

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。