当前位置:
X-MOL 学术
›
arXiv.cs.CL
›
论文详情
Our official English website, www.x-mol.net, welcomes your
feedback! (Note: you will need to create a separate account there.)
InstructDoc:带有指令的视觉文档理解零样本泛化数据集
arXiv - CS - Computation and Language Pub Date : 2024-01-24 , DOI: arxiv-2401.13313
Ryota Tanaka, Taichi Iki, Kyosuke Nishida, Kuniko Saito, Jun Suzuki
arXiv - CS - Computation and Language Pub Date : 2024-01-24 , DOI: arxiv-2401.13313
Ryota Tanaka, Taichi Iki, Kyosuke Nishida, Kuniko Saito, Jun Suzuki
我们研究通过人工编写的指令在现实世界文档上完成各种视觉文档理解(VDU)任务的问题,例如问答和信息提取。为此,我们提出了 InstructDoc,这是第一个包含 30 个公开可用的 VDU 数据集的大规模集合,每个数据集都有统一格式的不同指令,涵盖了 12 种任务,并包括开放文档类型/格式。此外,为了增强 VDU 任务的泛化性能,我们设计了一种新的基于指令的文档阅读和理解模型 InstructDr,它通过可训练的桥接模块连接文档图像、图像编码器和大语言模型 (LLM)。实验表明,InstructDr 可以通过给定的指令有效地适应新的 VDU 数据集、任务和领域,并且在无需特定训练的情况下优于现有的多模态 LLM 和 ChatGPT。
"点击查看英文标题和摘要"
更新日期:2024-01-27

"点击查看英文标题和摘要"