当前位置:
X-MOL 学术
›
IEEE Access
›
论文详情
Our official English website, www.x-mol.net, welcomes your
feedback! (Note: you will need to create a separate account there.)
MMU-OCR-21:使用深度学习实现端到端乌尔都语文本识别
IEEE Access ( IF 3.4 ) Pub Date : 2021-09-07 , DOI: 10.1109/access.2021.3110787 Tayyab Nasir , Muhammad Kamran Malik , Khurram Shahzad
光学字符识别 (OCR) 是一种从图像生成文本的技术。认识到 OCR 在现实世界中的重要性,已经为西方和亚洲语言开发了大量技术。乌尔都语是一种重要的南亚语言,人们提出了多种不同的乌尔都语 OCR 解决方案。然而,开发用于识别印刷乌尔都语文本的端到端深度学习解决方案的尝试较少。此外,还开发了几个乌尔都语 OCR 基准语料库,可用于不同 OCR 技术的培训和评估。然而,现有的乌尔都语语料库存在许多局限性:首先,它们大多数都具有字符或单词或文本图像,通常仅使用单一字体 Nastaleeq 呈现。其次,现有数据集的数量太小,不适合使用在 OCR 方面取得突破性成果的深度学习技术。为此,在本研究中,我们提出了一个非常大的多级多脚本乌尔都语语料库(MMU-OCR-21)。它是有史以来最大的乌尔都语印刷文本语料库,非常适合深度学习技术。该语料库总共由超过 602,472 张图像组成,包括三种突出字体的文本行和单词图像,以及它们各自的基本事实。此外,我们还使用多种最先进的深度学习技术对文本行和字级图像进行了实验。
"点击查看英文标题和摘要"