TTS语音合成算法研究方向整理


2021年2月,音频社交软件Clubhouse风靡全球,其爆红除了带动语音社交概念股股价上的涨势,也使本身在中国有一定基础的在线音频行业吸引了更多的关注。iiMedia Research(艾媒咨询)数据显示,2020年中国在线音频用户规模达到5.7亿人,2022年有望升至6.9亿人。无论是手机里的有声书,智能助手(智能客服等),有买有送的智能音箱,还是各具特色的虚拟偶像或者车载导航,总有一种声音曾陪伴过你。

这些生活中随处可见AI的声音,背后其实都有依靠一项核心技术:语音合成TTS(text-to-speech)。声音可以影响用户的视觉感知以及对一个人的刻板印象,而语音合成技术,就可以为机器注入这种人格化的魅力,以用户粘性来判断一个产品商业价值的时代,TTS语音合成能力就能成为影响各个语音场景输赢的关键性因素。

以下是对《A Survey on Neural Speech Synthesis》文献综述的个人总结,文中提出目前TTS主要分为以下的5个方向:

一、Fast TTS

该方向被需要的原因:文本到语音合成系统通常部署在云服务器或嵌入式设备中,且语言本身就是序列化呈现的东西,无法像图像一样让使用者同时处理大量的信息,更快速的处理以及轻量的模型易于商业上不同场景的部署使用
Fast TTS

二、Low-Resource TTS

该方向被需要的原因:构建高质量的TTS系统通常需要大量高质量的配对文本和语音数据,但是在有些领域难以获得这样的数据,如小语种。以及看目前涉及TTS技术的产品在往个人声音定制的方向发展,以及基于商业的角度更少的资源意味着更少的成本。
Low-Resource TTS

三、Robust TTS

该方向被需要的原因:在神经TTS中,当从字符/音素序列生成梅尔谱序列时,在声学模型中经常发生诸如跳字、重复和注意力崩溃等稳健性问题。但是现有的模型对该问题已经有了很好的解决,如fastspeech2模型使用外部对准技术(HMM based Montreal forced alignment (MFA)来获得持续时间,替换注意机制
Robust TTS
Robust TTS

四、Expressive TTS

Expressive TTS的关键是处理一对多映射问题,指在持续时间、音高、音量、说话者风格、情感等方面,同一文本对应的多种语音变化。

该方向被需要的原因:合成综合可理解并且自然的语言,同时最好富含情感的语言是其他一些更为人性化产品的需求
Expressive TTS
Expressive TTS

五、Adaptive TTS

该方向被需要的原因:可以为任何用户合成语音,达到千人千面的效果。虚拟偶性,AI主播经济的流行(如初音未来),以及原神等大型开放世界性游戏的流行,使得在商业上对定制语音的需求不断地上升,但是目前配音和定制语音之间差异大。可以使用的场景:如语音适应,语音克隆,定制语音。
Adaptive TTS


文章作者: zheng tian
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 zheng tian !
评论
 上一篇
ASR语音识别-产品供应商调研 ASR语音识别-产品供应商调研
本文介绍了目前比较主流的几个ASR供应商产品的优劣势,领域和场景依旧是现阶段ASR技术最主要的限制
2021-11-01
下一篇 
心理测试app-竞品分析与数据分析 心理测试app-竞品分析与数据分析
本次主要调研的竞品有口袋心理测试、哔哩哔哩心理测试互动视频、趣鸭,希望借助此次产品调研,提出可以提升心理抑郁测试app留存率和转化率的方案,以及提出可能可以取代咨询模块的新的模块。
2021-03-11