当前位置:
X-MOL 学术
›
Int. J. Appl. Earth Obs. Geoinf.
›
论文详情
Our official English website, www.x-mol.net, welcomes your
feedback! (Note: you will need to create a separate account there.)
MGFNet: An MLP-dominated gated fusion network for semantic segmentation of high-resolution multi-modal remote sensing images
International Journal of Applied Earth Observation and Geoinformation ( IF 7.6 ) Pub Date : 2024-11-15 , DOI: 10.1016/j.jag.2024.104241 Kan Wei, JinKun Dai, Danfeng Hong, Yuanxin Ye
International Journal of Applied Earth Observation and Geoinformation ( IF 7.6 ) Pub Date : 2024-11-15 , DOI: 10.1016/j.jag.2024.104241 Kan Wei, JinKun Dai, Danfeng Hong, Yuanxin Ye
The heterogeneity and complexity of multimodal data in high-resolution remote sensing images significantly challenges existing cross-modal networks in fusing the complementary information of high-resolution optical and synthetic aperture radar (SAR) images for precise semantic segmentation. To address this issue, this paper proposes a multi-layer perceptron (MLP) dominated gate fusion network (MGFNet). MGFNet consists of three modules: a multi-path feature extraction network, an MLP-gate fusion (MGF) module, and a decoder. Initially, MGFNet independently extracts features from high-resolution optical and SAR images while preserving spatial information. Then, the well-designed MGF module combines the multi-modal features through channel attention and gated fusion stages, utilizing MLP as a gate to exploit complementary information and filter redundant data. Additionally, we introduce a novel high-resolution multimodal remote sensing dataset, YESeg-OPT-SAR, with a spatial resolution of 0.5 m. To evaluate MGFNet, we compare it with several state-of-the-art (SOTA) models using YESeg-OPT-SAR and Pohang datasets, both of which are high-resolution multi-modal datasets. The experimental results demonstrate that MGFNet achieves higher evaluation metrics compared to other models, indicating its effectiveness in multi-modal feature fusion for segmentation. The source code and data are available at https://github.com/yeyuanxin110/YESeg-OPT-SAR .
中文翻译:
MGFNet: 一种以 MLP 为主的门控融合网络,用于高分辨率多模态遥感图像的语义分割
高分辨率遥感图像中多模态数据的异质性和复杂性对现有的跨模态网络在融合高分辨率光学和合成孔径雷达 (SAR) 图像的互补信息以进行精确语义分割方面提出了重大挑战。为了解决这个问题,该文提出了一种多层感知器(MLP)主导的门融合网络(MGFNet)。MGFNet 由三个模块组成:多路径特征提取网络、MLP 门融合 (MGF) 模块和解码器。最初,MGFNet 独立地从高分辨率光学和 SAR 图像中提取特征,同时保留空间信息。然后,设计良好的 MGF 模块通过通道注意力和门控融合阶段结合多模态特征,利用 MLP 作为门来利用互补信息并过滤冗余数据。此外,我们引入了一种新型的高分辨率多模态遥感数据集 YESeg-OPT-SAR,其空间分辨率为 0.5 m。为了评估 MGFNet,我们将其与使用 YESeg-OPT-SAR 和 Pohang 数据集的几个最先进的 (SOTA) 模型进行了比较,这两个模型都是高分辨率多模态数据集。实验结果表明,与其他模型相比,MGFNet 实现了更高的评价指标,表明其在多模态特征融合分割方面的有效性。源代码和数据可在 https://github.com/yeyuanxin110/YESeg-OPT-SAR 上获得。
更新日期:2024-11-15
中文翻译:
MGFNet: 一种以 MLP 为主的门控融合网络,用于高分辨率多模态遥感图像的语义分割
高分辨率遥感图像中多模态数据的异质性和复杂性对现有的跨模态网络在融合高分辨率光学和合成孔径雷达 (SAR) 图像的互补信息以进行精确语义分割方面提出了重大挑战。为了解决这个问题,该文提出了一种多层感知器(MLP)主导的门融合网络(MGFNet)。MGFNet 由三个模块组成:多路径特征提取网络、MLP 门融合 (MGF) 模块和解码器。最初,MGFNet 独立地从高分辨率光学和 SAR 图像中提取特征,同时保留空间信息。然后,设计良好的 MGF 模块通过通道注意力和门控融合阶段结合多模态特征,利用 MLP 作为门来利用互补信息并过滤冗余数据。此外,我们引入了一种新型的高分辨率多模态遥感数据集 YESeg-OPT-SAR,其空间分辨率为 0.5 m。为了评估 MGFNet,我们将其与使用 YESeg-OPT-SAR 和 Pohang 数据集的几个最先进的 (SOTA) 模型进行了比较,这两个模型都是高分辨率多模态数据集。实验结果表明,与其他模型相比,MGFNet 实现了更高的评价指标,表明其在多模态特征融合分割方面的有效性。源代码和数据可在 https://github.com/yeyuanxin110/YESeg-OPT-SAR 上获得。