OtterHD：高分辨率多模态模型,arXiv - CS - Computer Vision and Pattern Recognition - X-MOL

当前位置： X-MOL 学术 › arXiv.cs.CV › 论文详情

Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)

OtterHD：高分辨率多模态模型
arXiv - CS - Computer Vision and Pattern Recognition Pub Date : 2023-11-07 , DOI: arxiv-2311.04219
Bo Li, Peiyuan Zhang, Jingkang Yang, Yuanhan Zhang, Fanyi Pu, Ziwei Liu

在本文中，我们提出了 OtterHD-8B，这是一种从 Fuyu-8B 演变而来的创新多模态模型，专门用于以粒度精度解释高分辨率视觉输入。与受固定尺寸视觉编码器限制的传统模型不同，OtterHD-8B 拥有处理灵活输入尺寸的能力，确保其在各种推理要求中的多功能性。除了该模型之外，我们还引入了 MagnifierBench，这是一个评估框架，旨在检查模型辨别小物体的微小细节和空间关系的能力。我们的比较分析表明，虽然当前领先的模型在此基准上表现不佳，但 OtterHD-8B，特别是在直接处理高分辨率输入时，其性能大幅优于同类产品。研究结果阐明了不同模型之间视觉信息处理的结构差异，以及视觉编码器的预训练分辨率差异对此类基准中模型有效性的影响。我们的研究强调了灵活性和高分辨率输入能力在大型多模态模型中的关键作用，并举例说明了 Fuyu 架构在处理复杂视觉数据的简单性方面所固有的潜力。

"点击查看英文标题和摘要"

更新日期：2023-11-09

点击分享查看原文

点击收藏

阅读更多本刊新发论文

相关文章参考文献引文

点击加载相关文章

全部期刊列表>>

阿拉丁

教育学优质期刊列表

机器视觉光流体学光机电一体化

生物过程动态模型

Springer旗下全新催化方向高质新刊

风险管理自然灾害预警

可持续能源系统

1111购书享好礼-信息流

动物学生物学

心理学Q1期刊

编辑润色服务全线九折优惠

系统生物学合成生物学

英语语言编辑翻译加编辑

专注于基础生命科学与临床研究的交叉领域

遥感数据采集

数字地球

开学添书香，满额有好礼

加速出版服务

传播分子、细胞和发育生物学领域的重大发现

环境管理资源效率浪费最小化

先进材料生物材料

聚焦分子细胞和生物体生物学

“转化老年科学”.正在征稿

化学工程

wiley你是哪种学术人格

细胞生物学

100+材料学期刊

人工智能新刊

图书出版流程

征集眼内治疗给药新技术

英语语言编辑服务

快速找到合适的投稿机会

动态系统的数学与计算机建模

热点论文一站获取

定位全球科研英才

中国图象图形学学会合作刊

东北石油大学合作期刊

动物源性食品遗传学与育种

专业英语编辑服务

北京大学

罗文大学

浙江大学

化学所

新加坡国立

南科大

中科院

南科大

北京大学

南科大

ACS材料视界

客服邮箱：service@x-mol.com
官方微信：X-molTeam2
邮编：100098
地址：北京市海淀区知春路56号中航科技大厦

bug