当前位置: X-MOL 学术Arab. J. Sci. Eng. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
语料库准备好进行机器翻译了吗?Python 到伪代码语料库的案例研究
Arabian Journal for Science and Engineering ( IF 2.6 ) Pub Date : 2022-07-19 , DOI: 10.1007/s13369-022-07049-0
Sawan Rai 1 , Ramesh Chandra Belwal 1 , Atul Gupta 1
Affiliation  

数据的可用性是大多数最先进的机器翻译任务技术背后的驱动力。可以理解的是,这种数据可用性促使研究人员提出新技术,并通过使用适当的评估措施来声称他们的技术优于现有技术。然而,底层学习算法的性能会受到语料库的正确性和一致性的很大影响。我们展示了我们对公开可用的 python 与用于自动文档任务的伪代码并行语料库的相关性的调查,以及使用该语料库进行的研究。我们发现语料库存在许多可见的问题,例如实例重叠、翻译风格不一致、不完整和单词拼写错误。我们表明,这些差异会显着影响学习算法的性能,以至于它们可能导致以前的研究得出不正确的结论。我们使用统计机器翻译和神经机器翻译模型进行了实验研究。我们记录了显着差异(\(\sim \)  10% on BLEU score) 在从语料库中删除问题后模型的性能。





"点击查看英文标题和摘要"

更新日期:2022-07-20
down
wechat
bug