ASR语音识别-产品供应商调研


首先需要说明一下,ASR是语音识别算法,但是在实际的(下面提到的语音产品)中不仅涉及到语音识别的算法,还可能存在语音增强,自然语言处理等技术;此外本文提到的也不是远场语音识别(如天猫精灵使用的场景),因此不需要考虑唤醒率等指标;同时关注的也不是多轮对话形式的语音识别,因此也不需要关注声纹识别的准确率。

其次也是我个人比较困扰的一个问题:ASR语音识别技术与速记员之间是竞争者的关系吗?速记员 vs AI语音识别师:你需要3小时记录的会议,我只需要7分钟?,想知道结果的可以看看这个视频大约10分钟,非常有意思

一、ASR竞品企业选择

ASR垂直领域企业

根据艾媒咨询数据显示语音识别垂直领域主要是以上几家企业,对以上6家企业了解后选择了科大讯飞和云知声作为调研的对象

为了选择几家综合性的公司,根据艾媒咨询《2020年中国智能语音行业研究报告》数据显示在智能语音领域的客服场景下,百度智能云以及阿里云是主要的技术服务平台,因此在接下来的分析中选择了这两家为调研的对象。

二、企业优劣势对比

2.1 总结

ASR企业优劣势对比:相对有优势的企业才显示在4方面下面

以上是我个人总结的,各企业在数据、算法模型、购买、定制这四方面的优劣势,后面的内容主要是对本总结的具体分析。

2.2 场景领域对比


目前ASR产品主要被分为3种,分别为实时短语音识别、实时长语音识别、非实时语音识别,以及在场景方面,科大讯飞进入的比较早,且技术发展稳定,到目前为止积累了更多的语音场景。

2.3 价格对比

语种并发接口差异
实时短语音识别
实时长语音识别
非实时语音识别

在接口并发和语种方面,科大讯飞确实积累多存在优势,在价格方面实时短语音主要依据调用次数付费,实时长语音主要依旧调用时长付费,为非实时语音考虑到场景也是按照时长进行付费,而阿里在三种语音识别方式中都是价格最为便宜的。

2.4 定制服务对比

自训练定制平台
阿里、百度在asr方面有自训练定制平台,主要为了弥补ASR模型在领域上的劣势,用户可以提交自己领域的专业性词语或者句子,然后模型会自主进行训练。同时阿里、百度这类模型供应商也可以从中收益,不仅获取了可用于训练的领域专业数据,同时也可以促进其模型识别率的提升。

三、个人ASR测试对比

测试结果总览
测试案例
就个人测试结果,以及艾媒咨询的调研结果来看,两者是存在冲突的,估计是因为使用场景领域的差异,以及其他功能设置上的差异造成的。但是搜狗在中英混合识别方面确实稳定的比较差。


四、总结

目前的ASR模型领域场景适应性还是存在问题。如果你需要使用ASR在一个比较大众化的领域,或者某些产品确实有你所属领域和场景的模型,且识别率不错,那么选择该类现有产品是个不错的选择但是如果你的领域小众,或者你的领域需要不断革新某些语言(互联网),你选择百度阿里等有自训练连平台的是个不错的选择。

个人反思

技术问题:由于ASR调研需要提交的时间比较紧以及我对ASR算法的了解相对比较少,因此感觉在分析ASR产品的差异时更加关注的是业务方面的差异,而对算法同学关注的点不太清楚,因此在做分析时难免会存在问题。

解决:在工作之余可以看看算法相关的网客,论坛,以及和ASR的同学交流值得一看的综述以及目前比较前言的算法模型

调研方向深度问题:本次调研相较于以前自己的调研,在调研之前明确了自己当时的不明白的点,但是随着调研的进行,发现了新的问题主要是发现了更多的细分,如ASR产品主要有三种实时短语音、实时长语音、非实时语音。但是因为担心导师会认为自己做的不好,而没有询问导师我本次调研哪个方向是重点,最终调研完成之后还补充了很多的东西

解决:问题,是工作中不可避免的东西,尽早的解决才可以避免无效的努力,以及本身作为刚步入新领域的你,如果有可以问的机会,要好好的把握。

李宏毅语言处理算法课程推荐-适合了解算法模型youtube
李宏毅语言处理算法课程推荐-适合了解算法模型bilibili


文章作者: zheng tian
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 zheng tian !
评论