使用编码器状态修订策略改进基于 Transformer 的因果模型的流式端到端 ASR,arXiv - CS - Sound - X-MOL

当前位置： X-MOL 学术 › arXiv.cs.SD › 论文详情

Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)

使用编码器状态修订策略改进基于 Transformer 的因果模型的流式端到端 ASR
arXiv - CS - Sound Pub Date : 2022-07-06 , DOI: arxiv-2207.02495
Zehan Li, Haoran Miao, Keqi Deng, Gaofeng Cheng, Sanli Tian, Ta Li, Yonghong Yan

在流式自动语音识别 (ASR) 中，通常需要在性能和延迟之间进行权衡。传统方法，例如前瞻和基于块的方法，通常需要来自未来帧的信息来提高识别精度，即使计算速度足够快，也会产生不可避免的延迟。在没有任何未来帧的情况下进行计算的因果模型可以避免这种延迟，但其性能明显低于传统方法。在本文中，我们提出了相应的修正策略来改进因果模型。首先，我们引入了一种实时编码器状态修正策略来修改以前的状态。编码器前向计算在接收到数据后开始，并在几帧后修改先前的编码器状态，无需等待任何正确的上下文。此外，设计了一种CTC尖峰位置对齐解码算法，以降低修订策略带来的时间成本。实验都是在 Librispeech 数据集上进行的。在基于 CTC 的 wav2vec2.0 模型上进行微调，我们的最佳方法可以在 test-clean/other 集上达到 3.7/9.2 WER，这也与基于块的方法和知识蒸馏方法具有竞争力。

"点击查看英文标题和摘要"

更新日期：2022-07-07

点击分享查看原文

点击收藏

阅读更多本刊新发论文

相关文章参考文献引文

点击加载相关文章

全部期刊列表>>

阿拉丁

免疫学SCI期刊

OXFORD特刊征稿进行中

教育领域多学科期刊

化学材料科学SCI期刊

临床期刊 100+

世界读书日助力阅读

老年学Q1区期刊征稿进行中

FEMS Journals历年主题

分享您的投稿习惯

经济学SSCI期刊

英语语言编辑翻译加编辑新

加速出版服务新

1212购书送好礼

Springer旗下全新催化方向高质新刊

动物学生物学

系统生物学合成生物学

专注于基础生命科学与临床研究的交叉领域

传播分子、细胞和发育生物学领域的重大发现

聚焦分子细胞和生物体生物学

图书出版流程

快速找到合适的投稿机会

热点论文一站获取

定位全球科研英才

中国图象图形学学会合作刊

澳大利亚

上海交大

北京大学

浙江大学

哈尔滨

ACS材料视界

客服邮箱：service@x-mol.com
官方微信：X-molTeam2
邮编：100098
地址：北京市海淀区知春路56号中航科技大厦

bug