首页 生活 > 正文

开发了可在智能手机上运行的21种语言快速且高保真的神经文本转语音技术

国家信息通信技术研究所(NICT,所长:德田秀之博士)通用通信研究所成功开发出一种支持 21 种语言的快速高保真神经文本转语音技术。该技术的开发使得使用单个 CPU 核心在短短 0.1 秒内高速合成一秒钟的语音成为可能,这比传统方法快了约八倍。该技术还能够在没有网络连接的中端智能手机上以 0.5 秒的延迟实现快速合成(见图 1)。

此外,此次开发的21种语言神经文本转语音模型已安装在NICT运营的智能手机多语言语音翻译应用程序VoiceTra的服务器上,并已向公众开放。未来,该技术有望通过商业许可引入各种语音应用,例如多语言语音翻译和汽车导航。

这些结果将于 2024 年 9 月由国际语音通信协会 (ISCA) 主办的国际会议 INTERSPEECH 2024 Show & Tell 上公布。

背景

为了实现跨越语言障碍的口头语言交流,NICT 通用通信研究所正在研发多语言语音翻译技术。该研发成果已作为智能手机语音翻译应用程序 VoiceTra 的现场实验向公众发布,并且已通过商业许可在社会上进行了许多其他应用。文本转语音技术可以将翻译后的文本合成为人类语音,这对于实现多语言语音翻译技术以及自动语音识别和机器翻译非常重要。近年来,由于引入了神经网络技术,文本转语音的合成音质得到了显著改善,已经达到了与自然语音相当的水平,但是,巨大的计算量是一个主要问题;因此,在没有网络连接的情况下无法在智能手机上进行合成。

此外,NICT目前正在研发多语言同声传译技术。在同声传译中,需要不等待发言者说完就逐一输出翻译后的语音。因此,像自动语音识别和机器翻译一样,进一步加速文本转语音的速度是必不可少的。

成就

文本到语音模型通常由将输入文本转换为中间特征的声学模型和将中间特征转换为语音波形的波形生成模型构成。

在神经文本转语音的声学建模中,广泛应用于机器翻译、自动语音识别和大型语言模型(如 ChatGPT)的神经网络(Transformer 编码器 + Transformer 解码器)是主流,而我们将近期在图像识别中提出的高速、高性能神经网络(ConvNeXt 编码器 + ConvNeXt 解码器)引入到声学模型中,与传统方法相比,实现了三倍的合成速度,且性能没有任何下降。

2021 年,我们通过扩展传统模型 HiFi-GAN(可以合成与人类语音相当的语音),推出了 MS-HiFi-GAN,其中信号处理方法 [2-4] 用可训练的神经网络表示,并且在不降低合成性能的情况下实现了两倍的合成速度 [5]。2023 年,我们通过进一步加速 MS-HiFi-GAN 成功开发了 MS-FC-HiFi-GAN,与传统 HiFi-GAN 相比,在不降低合成性能的情况下实现了四倍的合成速度。

作为这些成果的结晶,我们开发了一种新颖、快速且高质量的神经文本转语音模型,该模型使用声学模型(Transformer 编码器 + ConvNeXt 解码器)和波形生成模型(MS-FC-HiFi-GAN),如图 2 所示。因此,开发的模型能够使用单个 CPU 核心在 0.1 秒内高速合成一秒钟的语音,比传统模型快约八倍。此外,通过引入增量合成仅应用于波形生成模型的方法(见图 3),开发的模型在中端智能手机上实现了 0.5 秒延迟的快速合成,无需网络连接,也不会降低合成性能。这消除了对互联网连接或传统基于服务器的合成的需求,并能够在智能手机、PC 和其他设备上实现高质量的神经文本转语音,同时降低通信成本。此外,增量合成处理还可以立即合成多语言同声传译中的翻译文本。

自 2024 年 3 月起,该开发的技术已用于 VoiceTra 支持的 21种语言的神经文本转语音,并已向公众开放。

†21 种语言:日语、英语、中文、韩语、泰语、法语、印尼语、越南语、西班牙语、缅甸语、菲律宾语、巴西葡萄牙语、高棉语、尼泊尔语、蒙古语、阿拉伯语、意大利语、乌克兰语、德语、印地语和俄语

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。