当前位置:
X-MOL 学术
›
arXiv.cs.CL
›
论文详情
Our official English website, www.x-mol.net, welcomes your
feedback! (Note: you will need to create a separate account there.)
使用单词大写和标点符号恢复模型改善语音中的越南语命名实体识别
arXiv - CS - Computation and Language Pub Date : 2020-10-01 , DOI: arxiv-2010.00198 Thai Binh Nguyen, Quang Minh Nguyen, Thi Thu Hien Nguyen, Quoc Truong Do, Chi Mai Luong
arXiv - CS - Computation and Language Pub Date : 2020-10-01 , DOI: arxiv-2010.00198 Thai Binh Nguyen, Quang Minh Nguyen, Thi Thu Hien Nguyen, Quoc Truong Do, Chi Mai Luong
对命名实体识别 (NER) 任务的研究表明,在具有正确文本格式(例如具有正确标点符号和大小写)的输入文本上达到了人类同等水平的出色结果。但是,这些条件在输入为语音的应用程序中不可用,因为文本是从语音识别系统 (ASR) 生成的,并且系统不考虑文本格式。在本文中,我们 (1) 展示了第一个用于 NER 任务的越南语语音数据集,以及 (2) 第一个为越南语预训练的公共大规模单语语言模型,它实现了越南语的最新技术水平与最新研究相比,NER 任务的绝对 F1 分数提高了 1.3%。最后,(3) 我们为来自语音的 NER 任务提出了一种新的管道,通过将文本大写和标点恢复模型 (CaPu) 引入管道来克服文本格式问题。该模型从 ASR 系统获取输入文本并同时执行两项任务,生成有助于提高 NER 性能的正确文本格式。实验结果表明,CaPu 模型有助于将 F1-score 提高近 4%。
"点击查看英文标题和摘要"
更新日期:2020-10-02
"点击查看英文标题和摘要"