实验室彭淑娟老师指导研究生何毅撰写的论文Relation-Aggregated Cross-Graph Correlation Learning for Fine-Grained Image-Text Retrieval,在顶刊《IEEE Transactions on Neural Networks and Learning Systems》发表。彭老师为第一作者。
该文指出,细粒度图像-文本检索是连接视觉与语言领域的热门研究课题,其主要挑战在于如何学习不同模态之间的语义对应关系。现有方法主要集中于学习全局语义对应关系或单模态关系的对应性,通常在独立的数据表示中进行,但很少考虑能够交互提供补充信息的跨模态关系,这对于细粒度语义关联的学习至关重要。
为了解决这一问题,该文提出了一种关系聚合的跨图(Relation-Aggregated Cross-Graph, RACG)模型,通过聚合单模态和跨模态关系,显式地学习细粒度语义对应关系,从而更好地指导特征对应关系的学习过程。具体来说,该文首先构建了嵌入语义的图(semantic-embedded graph),用于探索不同媒介类型中细粒度对象及其关系。这种设计不仅可以表征每种模态中对象的外观特征,还能捕获内在的关系信息,以区分单模态间的差异。接着,该文设计了一种跨图关系编码器(cross-graph relation encoder),专门用于探索不同模态之间的关系,通过交互性增强跨模态关联性,学习更精确的跨模态依赖。
此外,特征重构模块和多头相似性对齐(multihead similarity alignment)被高效利用,以优化节点级语义对应关系,从而在图像和文本之间获得区分性更强的关系聚合跨模态嵌入。这些嵌入能够为各种图像-文本检索任务提供支持,实现更高的检索性能。通过在基准数据集上的大量实验,该文在定量和定性分析上验证了所提框架在细粒度图像-文本检索任务中的优势,并展示了其与现有最先进方法相比的竞争性能。