【2023.12】实验室张洪博老师等论文在CCF A顶刊《IEEE Transactions on Image Processing》发表
发布时间:2023-12-21
实验室张洪博老师指导学生撰写的论文Point-Based Learnable Query Generator forHuman–Object Interaction Detection,在CCF A顶刊《IEEE Transactions on Image Processing》发表。张老师为通讯作者。
该文指出,基于Transformer和交互点的方法已经展现出在人-物体交互检测中有很高的性能和潜力。然而,由于这两种模型在结构和特性上的差异,直接整合这两种模型是不可行的。最近的基于Transformer的方法将解码器分为两个分支:一个用于人-物体对检测的实例解码器,一个用于交互识别的分类解码器。虽然Transformer内部的注意力机制增强了定位和分类之间的联系,但该文着重于通过增加实例和动作特征之间的内在关联来进一步改善HOI(人-物体交互)检测性能。为了解决这些挑战,该文提出了一种新颖的基于Transformer的HOI检测框架。在所提出的方法中,解码器包含三个部分:可学习的查询生成器、实例解码器和交互分类器。可学习的查询生成器旨在构建一个有效的查询,以指导实例解码器和交互分类器学习更准确的实例和交互特征。然后,这些特征被应用于更新下一层的查询生成器。特别是,受到基于交互点的HOI和物体检测方法的启发,该文引入了先验边界框、关键点检测和空间关系特征来构建新颖的可学习查询生成器。最后,所提出的方法在HICO-DET和V-COCO数据集上进行了验证。