语料库准备好进行机器翻译了吗？Python 到伪代码语料库的案例研究,Arabian Journal for Science and Engineering - X-MOL

当前位置： X-MOL 学术 › Arab. J. Sci. Eng. › 论文详情

Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)

语料库准备好进行机器翻译了吗？Python 到伪代码语料库的案例研究
Arabian Journal for Science and Engineering ( IF 2.6 ) Pub Date : 2022-07-19 , DOI: 10.1007/s13369-022-07049-0
Sawan Rai ₁ , Ramesh Chandra Belwal ₁ , Atul Gupta ₁

Affiliation

数据的可用性是大多数最先进的机器翻译任务技术背后的驱动力。可以理解的是，这种数据可用性促使研究人员提出新技术，并通过使用适当的评估措施来声称他们的技术优于现有技术。然而，底层学习算法的性能会受到语料库的正确性和一致性的很大影响。我们展示了我们对公开可用的 python 与用于自动文档任务的伪代码并行语料库的相关性的调查，以及使用该语料库进行的研究。我们发现语料库存在许多可见的问题，例如实例重叠、翻译风格不一致、不完整和单词拼写错误。我们表明，这些差异会显着影响学习算法的性能，以至于它们可能导致以前的研究得出不正确的结论。我们使用统计机器翻译和神经机器翻译模型进行了实验研究。我们记录了显着差异（\(\sim \) 10% on BLEU score) 在从语料库中删除问题后模型的性能。

"点击查看英文标题和摘要"

更新日期：2022-07-20

点击分享查看原文

点击收藏

阅读更多本刊新发论文本刊介绍/投稿指南

相关文章参考文献引文

点击加载相关文章

全部期刊列表>>

阿拉丁

经济学SSCI期刊

英语语言编辑翻译加编辑新

加速出版服务新

1212购书送好礼

Springer旗下全新催化方向高质新刊

动物学生物学

系统生物学合成生物学

专注于基础生命科学与临床研究的交叉领域

传播分子、细胞和发育生物学领域的重大发现

聚焦分子细胞和生物体生物学

图书出版流程

快速找到合适的投稿机会

热点论文一站获取

定位全球科研英才

中国图象图形学学会合作刊

上海交大

华南理工

西湖大学

上海交大

深圳湾

南开大学

清华大学

新加坡

加州大学

ACS材料视界

客服邮箱：service@x-mol.com
官方微信：X-molTeam2
邮编：100098
地址：北京市海淀区知春路56号中航科技大厦

bug