u-LLaVA：通过大型语言模型统一多模态任务,arXiv - CS - Computer Vision and Pattern Recognition - X-MOL

当前位置： X-MOL 学术 › arXiv.cs.CV › 论文详情

Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)

u-LLaVA：通过大型语言模型统一多模态任务
arXiv - CS - Computer Vision and Pattern Recognition Pub Date : 2023-11-09 , DOI: arxiv-2311.05348
Jinjin Xu, Liwu Xu, Yuzhe Yang, Xiang Li, Yanchun Xie, Yi-Jie Huang, Yaqian Li

LLaVA 和 Mini-GPT4 等最新进展已成功将视觉信息集成到法学硕士中，产生了鼓舞人心的成果，并催生了新一代多模式法学硕士（MLLM）。然而，这些方法与幻觉和任务之间的相互干扰作斗争。为了解决这些问题，我们提出了一种高效、准确的方法来适应下游任务，利用LLM作为连接多个专家模型的桥梁，即u-LLaVA。首先，我们将模态对齐模块和多任务模块纳入LLM。然后，我们重新组织或重建多类型公共数据集，以实现有效的模态对齐和指令遵循。最后，从经过训练的 LLM 中提取特定于任务的信息，并将其提供给不同的模块以解决下游任务。整体框架简单、有效，并在多个基准测试中实现了最先进的性能。我们还公开发布我们的模型、生成的数据和代码库。

"点击查看英文标题和摘要"

更新日期：2023-11-11

点击分享查看原文

点击收藏

阅读更多本刊新发论文

相关文章参考文献引文

点击加载相关文章

全部期刊列表>>

阿拉丁

风险管理自然灾害预警

可持续能源系统

1111购书享好礼-信息流

动物学生物学

心理学Q1期刊

编辑润色服务全线九折优惠

系统生物学合成生物学

英语语言编辑翻译加编辑

专注于基础生命科学与临床研究的交叉领域

遥感数据采集

数字地球

开学添书香，满额有好礼

加速出版服务

传播分子、细胞和发育生物学领域的重大发现

环境管理资源效率浪费最小化

先进材料生物材料

聚焦分子细胞和生物体生物学

“转化老年科学”.正在征稿

化学工程

wiley你是哪种学术人格

细胞生物学

100+材料学期刊

人工智能新刊

图书出版流程

征集眼内治疗给药新技术

英语语言编辑服务

快速找到合适的投稿机会

动态系统的数学与计算机建模

热点论文一站获取

定位全球科研英才

中国图象图形学学会合作刊

东北石油大学合作期刊

动物源性食品遗传学与育种

专业英语编辑服务

北京大学

罗文大学

浙江大学

化学所

加州大学

上海交大

谢作伟

东北师范

北京大学

新加坡

ACS材料视界

客服邮箱：service@x-mol.com
官方微信：X-molTeam2
邮编：100098
地址：北京市海淀区知春路56号中航科技大厦

bug