• QQ空间
  • 收藏

云从科技刷新一项语音识别纪录

| 2020-05-10

近日,云从科技宣布在全球最大的开源语音识别数据集 Librispeech 上,将错词率(Worderrorrate,WER)降到了 2.97%,并将 Librispeech 的 WER 指标提升了 25%,超过阿里、百度、约翰霍普金斯大学等企业及高校,刷新了原先记录。

将 Librispeech 数据集上的错词率降至 2.97%

Librispeech 是当前衡量语音识别技术的最权威主流的开源数据集,错词率(Worderrorrate,WER)是衡量语音识别技术水平的核心指标。

云从科技在 Librispeech 数据集上将错词率(Worderrorrate,WER)降到了 2.97%,较之前提升了 25%。这项成果有利于语音识别技术的进步,也有助于推动语音识别带来良好的智慧交互体验。

云从科技此次推出的语音识别模型 Pyramidal-FSMN 融合图像识别与语音识别的优势,将残差卷积网络和金字塔记忆模块的序列记忆网络相结合, 能够同时有效的提取空间和时间上不同粒度的信息,对比目前业界使用最为广泛的 LSTM 模型,训练速度更快、识别准确率更高。

语音识别技术近年进展

2017 年 3 月,IBM 结合了 LSTM 模型和带有 3 个强声学模型的 WaveNet 语言模型。「集中扩展深度学习应用技术终于取得了 5.5% 错词率的突破」。相对应的是去年 5 月的 6.9%。

2017 年 8 月,微软发布新的里程碑,通过改进微软语音识别系统中基于神经网络的听觉和语言模型,在去年基础上降低了大约 12% 的出错率,错词率为 5.1%,声称超过专业速记员。相对应的是去年 10 月的 5.9%,声称超过人类。

2017 年 12 月,谷歌发布全新端到端语音识别系统(State-of-the-art Speech Recognition With Sequence-to-Sequence Models),错词率降低至 5.6%。相对于强大的传统系统有 16% 的性能提升。

2018 年 6 月,阿里巴巴达摩院推出了新一代语音识别模型 DFSMN,将全球语音识别准确率纪录提高至 96.04%,错词率降低至 3.96%。

2018 年 10 月,云从科技发布全新 Pyramidal-FSMN 语音识别模型,将错词率(Worderrorrate,WER)降低至 2.97%,较之前提升了 25%。

Pyramidal-FSMN 语音识别模型原理解析

云从科技提出的新型网络结构,能更加有效的提取空间和时间特征的角度,为语音识别进一步发展提供了一些新的思路: 模型设计采用一种残差卷积网络和金字塔记忆模块的序列记忆网络相结合的结构; 训练方式使用 lattice-free 最大互信息(lattice-free maximum mutual information,LF-MMI/Chain)与交叉熵(cross entropy,CE)损失函数相结合的多任务学习技术;解码部分采取 RNNLM rescoring 的方式,利用 RNN 提取一个句子中的长期语义信息,从而更有效地帮助声学模型得到准确的句子。

如下图所示,作者采用了由 6 层 Residual CNN 和 10 层 Pyramidal-FSMN 相结合的网络结构。前端网络借鉴了图像识别中经典的 Residual CNN 结构,更有效地提取特征与时间相互的关联信息,同时 skip connection 避免了 CNN 网络加深之后梯度消失和梯度爆炸问题。在金字塔记忆模块中,浅层的网络主要聚焦于音素本身的特征学习,所以只需抽取短时上下文信息,而深层的网络由于已经学习到了足够的固定时间的音素信息,需要学习长时间包括语义和语法特征,所以深层抽取长时间的上下文信息。利用这样的金字塔结构,既能减少参数,缩小模型结构,也能更加精巧的模拟人类处理语音信号的过程,提高识别效果。

在损失函数部分,作者采用了基于 LF-MMI 的序列性训练方式。同时为了解决序列性训练容易导致过拟合的问题,又引入了传统的交叉熵损失函数,在 LF-MMI 输出之外加入另一个输出层作为一个正则技术,通过设置交叉熵的正则化系数,两个目标能够有效地学习并且避免过拟合问题。

最后,作者使用了 RNNLM rescoring 技术对解码做进一步处理。在没有 RNNLM rescoring 的情况下,Pyramidal-FSMN 已经达到了目前最好的结果,rescoring 之后又有了更进一步的提升。

声学模型和 RNNLM 的训练数据完全基于 Librispeech 和通用的语言模型数据集,并没有额外引入其他的训练数据这样的「技巧」性策略。

论文地址:https://arxiv.org/abs/1810.11352

相关介绍:

LibriSpeech 数据集:世界最大的免费语音识别数据库,包含文本和语音的有声读物数据集,由 1000 小时的多人朗读的清晰音频组成,且包含书籍的章节结构。

2020-07-04
科技 高科技汽车的无奈
人们对高科技汽车所带来的惬意享受正在被其高额的使用成本一点点碾碎。 高科技给汽车产业带了快速的更新和进步,低油耗大功率,先进的安全性和行驶性能,都是高科技带给... <详情>
2020-07-04
科技 汝南县板店乡“科技媳妇”俏乡村
本报讯 (通讯员 张红卫)“我丈夫常年在新疆搞外墙保温,我在家除了照顾孩子外,还建了一个大棚,种植香菇1万袋,每袋可产香菇2斤,按现在每斤6元钱计算... <详情>
2020-07-04
科技 六大亮点丨科技赋能·青年引领,BATi2019大湾区国际科创峰会强势来袭
2019年10月17日-18日,2019大湾区国际峰会将于深圳前海华侨城JW万豪酒店正式举行。峰会将结合大湾区科创和青年特色的优势,围绕5G生态、硬件创新、工业... <详情>
2020-06-28
科技 全球车商掀起自动驾驶的科技竞赛!
近几年来自动驾驶一直是全球车商持续发展的重大项目之一,尤其是Tesla自动驾驶推出上路之后,无不车商奋力追赶,展开一场激烈的技术竞赛。其中奥迪最近也表示将在德国... <详情>
2020-06-28
科技 泰科电子(TE Connectivity)亮相2018慕尼黑上海电子展 以创新科技连动中国
3月14日,全球连接和传感领域领军企业泰科电子(TE Connectivity,以下简称“TE”)在2018慕尼黑上海电子展,以“连动中国三十年”为主题,展示了... <详情>
2020-06-28
科技 福建:省级科技特派员年内实现乡镇全覆盖
省级科技特派员年内实现乡镇全覆盖 选认省级科技特派员1000名以上 东南网2月13日讯(福建日报记者 李珂)记者从省科技厅获悉,我省将发挥科技特派员作用,进一步... <详情>