当前位置:
X-MOL 学术
›
arXiv.cs.CV
›
论文详情
Our official English website, www.x-mol.net, welcomes your
feedback! (Note: you will need to create a separate account there.)
OtterHD:高分辨率多模态模型
arXiv - CS - Computer Vision and Pattern Recognition Pub Date : 2023-11-07 , DOI: arxiv-2311.04219 Bo Li, Peiyuan Zhang, Jingkang Yang, Yuanhan Zhang, Fanyi Pu, Ziwei Liu
arXiv - CS - Computer Vision and Pattern Recognition Pub Date : 2023-11-07 , DOI: arxiv-2311.04219 Bo Li, Peiyuan Zhang, Jingkang Yang, Yuanhan Zhang, Fanyi Pu, Ziwei Liu
在本文中,我们提出了 OtterHD-8B,这是一种从 Fuyu-8B 演变而来的创新多模态模型,专门用于以粒度精度解释高分辨率视觉输入。与受固定尺寸视觉编码器限制的传统模型不同,OtterHD-8B 拥有处理灵活输入尺寸的能力,确保其在各种推理要求中的多功能性。除了该模型之外,我们还引入了 MagnifierBench,这是一个评估框架,旨在检查模型辨别小物体的微小细节和空间关系的能力。我们的比较分析表明,虽然当前领先的模型在此基准上表现不佳,但 OtterHD-8B,特别是在直接处理高分辨率输入时,其性能大幅优于同类产品。研究结果阐明了不同模型之间视觉信息处理的结构差异,以及视觉编码器的预训练分辨率差异对此类基准中模型有效性的影响。我们的研究强调了灵活性和高分辨率输入能力在大型多模态模型中的关键作用,并举例说明了 Fuyu 架构在处理复杂视觉数据的简单性方面所固有的潜力。
"点击查看英文标题和摘要"
更新日期:2023-11-09
"点击查看英文标题和摘要"