当前位置:
X-MOL 学术
›
arXiv.cs.AI
›
论文详情
Our official English website, www.x-mol.net, welcomes your
feedback! (Note: you will need to create a separate account there.)
CLEVR-POC:部分可观察环境中的推理密集型视觉问答
arXiv - CS - Artificial Intelligence Pub Date : 2024-03-05 , DOI: arxiv-2403.03203
Savitha Sam Abraham, Marjan Alirezaie, Luc De Raedt
arXiv - CS - Artificial Intelligence Pub Date : 2024-03-05 , DOI: arxiv-2403.03203
Savitha Sam Abraham, Marjan Alirezaie, Luc De Raedt
学习和推理的整合是人工智能研究议程的重点。然而,很少有人关注使用现有的背景知识来推理部分观察到的场景来回答有关场景的问题。然而,我们作为人类经常使用这些知识来推断视觉问题的合理答案(通过消除所有不一致的答案)。此类知识通常以对象约束的形式出现,并且往往是高度特定于领域或环境的。我们贡献了一个名为 CLEVR-POC 的新颖基准,用于在约束下的部分可观察环境中进行推理密集型视觉问答(VQA)。在 CLEVR-POC 中,需要利用逻辑约束形式的知识来生成有关给定部分场景中隐藏对象的问题的合理答案。例如,如果一个人知道所有杯子的颜色都是红色、绿色或蓝色,并且只有一个绿色杯子,则可以将被遮挡的杯子的颜色推断为红色或蓝色,前提是所有其他杯子,包括绿色的,被观察到。通过实验,我们观察到 CLEVR-POC 上预训练的视觉语言模型(如 CLIP(约 22%))和大型语言模型(LLM)(如 GPT-4(约 46%))的低性能,这确定了框架的必要性可以处理推理密集型任务,其中特定环境的背景知识可用且至关重要。此外,我们的演示表明,将 GPT-4 等 LLM 与视觉感知网络和形式逻辑推理器集成在一起的神经符号模型在 CLEVR-POC 上表现出卓越的性能。
"点击查看英文标题和摘要"
更新日期:2024-03-06

"点击查看英文标题和摘要"