当前位置: X-MOL 学术arXiv.cs.CV › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
u-LLaVA:通过大型语言模型统一多模态任务
arXiv - CS - Computer Vision and Pattern Recognition Pub Date : 2023-11-09 , DOI: arxiv-2311.05348
Jinjin Xu, Liwu Xu, Yuzhe Yang, Xiang Li, Yanchun Xie, Yi-Jie Huang, Yaqian Li

LLaVA 和 Mini-GPT4 等最新进展已成功将视觉信息集成到法学硕士中,产生了鼓舞人心的成果,并催生了新一代多模式法学硕士(MLLM)。然而,这些方法与幻觉和任务之间的相互干扰作斗争。为了解决这些问题,我们提出了一种高效、准确的方法来适应下游任务,利用LLM作为连接多个专家模型的桥梁,即u-LLaVA。首先,我们将模态对齐模块和多任务模块纳入LLM。然后,我们重新组织或重建多类型公共数据集,以实现有效的模态对齐和指令遵循。最后,从经过训练的 LLM 中提取特定于任务的信息,并将其提供给不同的模块以解决下游任务。整体框架简单、有效,并在多个基准测试中实现了最先进的性能。我们还公开发布我们的模型、生成的数据和代码库。



"点击查看英文标题和摘要"

更新日期:2023-11-11
down
wechat
bug