TTS语音合成算法-工业部署pipeline调研


人工智能算法论文的发表到算法实际工业部署的实现需要跨越一道鸿沟,而且即使原始算法一致,细微的文本前端以及训练上的差异对实际的显示结果也会存在很大的影响,同时不同的公司对技术的关注方向确实存在很大的差异。

一、声学模型+声码器

各企业工业部署方式
以上合成的声音音质与韵律差异不大,除了优必选合成效果比较差,可能是fastspeech模型训练不到位造成的,因为fastspeech模型在一定训练量之后虽然模型损失不收敛,但是人听起来的效果确实会出现比较大的改善。
声学模型和声码器优劣势对比结果:有红色圆点的声学模型该方向更优
且以上模型对比是工业上的部署差异的对比,数据均是各企业在公开发表的信息中展示。

二、文本前端


图中我写了部分的前端处理方式,因为各企业在文本前端方面披露的信息相对来说会比较少,而且前端很多时候是针对后面声学模型和声码器问题的辅助调整,如小米的长语句的切分。

三、企业工业部署案例

百度

百度语音合成发展流程

虽然端到端的深度学习模型在2016年就被提出了,但是到2019年百度才部署上端到端的深度学习模型,而且百度在语音方面的进展在行业还是属于比较顶尖的地位,从中可以看出算法的突破性的进展可以在短短几年完全颠覆以前的行业部署模式,而一些新出来的企业以及比较小的企业借助端到端的语音模型也可以快速的接近行业大佬的水平。
此外百度以及行业都在往low-resource tts方向发展,以及VC也是目前产品端比较关注的因素
百度文本前端
以上是CCF会议的截图,有兴趣的同学可以去B站看看这个会议

腾讯

腾讯语音模型
腾讯和阿里都用了自主研发的语音合成算法模型,同时两个模型都有对应的论文,以及腾讯作为一个游戏公司,在语音合成算法上相较于其他的企业会比较关注多模态语音合成模型,如以下的图片所示
多模态语音合成模型

小米

小米目前使用的现有的模型,而且针对Tacotron的问题做了一些改善,主要是通过结合各模型的优势模块,如引入Duration模块来改善Tacotron的不稳定问题,而小米语音技术主要使用在小米的音箱上,因此他们目前的产品方向主要是情感与更多音色,以及更少的数据。

阿里

阿里语音模型

四、总结

如果是比较小的公司,以及精力不在语音算法上的公司,可以直接使用以上的模型配置,如fastspeech,WaveRNN等模型在github上都有具体的模型,而细节上的调整如前端和训练数据以及训练次数等问题,需要在部署环节根据现场的结果进行对应的调整。

五、个人反思

本次信息获取的方法可能在未来有一定的参考意义
首先获得需求时导师告诉我他问了其他公司的研究员但是他们不肯说,以及目前TTS前端方面的调整手段比较少,同时还告诉我了本企业的工业tts部署pipeline

1.首先明确企业工业TTS部署pipeline是否真的是商业机密:其实不是,因为我直接百度了我们公司的pipeline发现有新闻公开说明,因此pipeline模型类似于药的成分不是机密,而成分的量即某型在实际部署中细节上的调整才是关键的因素。

2.搜索关键字确定:我司公开新闻的关键字整理再搜索—–获得阿里的案例

3.再分析我司和案例的pipeline组合为企业大佬的顶会论文+目前比较有名的模型:因此需要整理内容转为团队大佬+有名目前研究比较多的模型(新闻+顶会上的模型如微软公开的fastspeech)

4.发现3的问题:论文到模型的工业部署有距离,研究!=工业部署;但是团队的大佬依旧是关键,阿里的案例就是一次线下会议上的发表,而疫情让很多原本线下的会议转为线上,线上的会议一般会有录屏,因此转为在B站上搜索最终确定CCF语音会议,看完全部会议之后,确定了本文整理出的内容。

以上内容更具以下信息来源整理所得
1.2020-CCF语音对话与听觉专业组会议(主办单位:中国计算机学会 |B站:BV1ST4y1F7mg)
2.各企业发表论文
3.对外公开新闻


文章作者: zheng tian
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 zheng tian !
评论