InstructDoc：带有指令的视觉文档理解零样本泛化数据集,arXiv - CS - Computation and Language - X-MOL

当前位置： X-MOL 学术 › arXiv.cs.CL › 论文详情

Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)

InstructDoc：带有指令的视觉文档理解零样本泛化数据集
arXiv - CS - Computation and Language Pub Date : 2024-01-24 , DOI: arxiv-2401.13313
Ryota Tanaka, Taichi Iki, Kyosuke Nishida, Kuniko Saito, Jun Suzuki

我们研究通过人工编写的指令在现实世界文档上完成各种视觉文档理解（VDU）任务的问题，例如问答和信息提取。为此，我们提出了 InstructDoc，这是第一个包含 30 个公开可用的 VDU 数据集的大规模集合，每个数据集都有统一格式的不同指令，涵盖了 12 种任务，并包括开放文档类型/格式。此外，为了增强 VDU 任务的泛化性能，我们设计了一种新的基于指令的文档阅读和理解模型 InstructDr，它通过可训练的桥接模块连接文档图像、图像编码器和大语言模型 (LLM)。实验表明，InstructDr 可以通过给定的指令有效地适应新的 VDU 数据集、任务和领域，并且在无需特定训练的情况下优于现有的多模态 LLM 和 ChatGPT。

"点击查看英文标题和摘要"

更新日期：2024-01-27

点击分享查看原文

点击收藏

阅读更多本刊新发论文

相关文章参考文献引文

点击加载相关文章

全部期刊列表>>

阿拉丁

老年学Q1区期刊征稿进行中

FEMS Journals历年主题

分享您的投稿习惯

经济学SSCI期刊

英语语言编辑翻译加编辑新

加速出版服务新

1212购书送好礼

Springer旗下全新催化方向高质新刊

动物学生物学

系统生物学合成生物学

专注于基础生命科学与临床研究的交叉领域

传播分子、细胞和发育生物学领域的重大发现

聚焦分子细胞和生物体生物学

图书出版流程

快速找到合适的投稿机会

热点论文一站获取

定位全球科研英才

中国图象图形学学会合作刊

哈尔滨

浙江大学

中国医科院

中国科技大学

浙江大学

深圳湾

ACS材料视界

客服邮箱：service@x-mol.com
官方微信：X-molTeam2
邮编：100098
地址：北京市海淀区知春路56号中航科技大厦

bug