微信:点击阅读微信原文
在深度学习时代下,苏黎世联邦理工大学Luc Van Gool团队呈现了首个关于视频息肉分割(VPS)技术的系统性研究。近年来,由于缺乏具有大规模细粒度分割标签的数据集,视频息肉分割研究领域的发展并不顺利。为解决上述问题,本文首次引入一个具有逐帧标注的高质量视频息肉分割数据集SUN-SEG,其中包含了来自著名SUN数据集中的158,690张结肠镜视频帧。并额外提供了不同类型的标签,即属性标签、目标掩码、边缘标签、线标签和多边形标签。其次,本文设计了一个简单且高效的基线模型PNS+,其包含全局编码器、局部编码器和归一化自注意力(NS)模块。本文接着在SUN-SEG数据集上广泛地评测了13个经典的息肉/目标分割模型,并且提供了基于属性的评测结果。最后,本文讨论了领域内亟待解决的几个问题,并为视频息肉分割研究社区提出了若干潜在研究方向。
全文导读
结直肠癌(CRC)是全球第二大致命癌症和第三大常见的恶性肿瘤,据估计每年会在全球范围内造成数百万人发病和死亡。结直肠癌患者在第一阶段的生存概率超过95%,但在第四和第五阶段却大幅下降到35%以下。因此,通过结肠镜、乙状结肠镜等筛查技术对阳性结直肠癌病例进行早期预诊,对于提高患者生存率具有重要意义。为达到预防目的,内科医师可以切除有癌变风险的结肠息肉。然而,这一过程高度依赖于医师的经验水平,且出现了较高的息肉漏诊率(22%-28%)。
近年来,人工智能(AI)技术被医生用于执行结肠镜检查过程中进行病变息肉自动检测。然而,开发出具有令人满意的检测率的人工智能方案仍具有挑战性,其主要存在以下两个问题:
有限的标注数据:深度学习模型通常需要具有密集标注的大规模视频数据集。此外,研究社区内也缺乏一个广泛认可的评测基准用于评估对比方法的版实能力(例如:准确率和效率)。
动态复杂性:结肠镜检查通常涉及到不太理想的相机运动和图像采集条件,包括息肉的多样性(例如:边缘对比度、形状、方向、角度)、肠道杂物(例如:水流、残留物)和成像退化(例如:颜色失版、镜面反射)。为此,本文呈现了一个系统性的研究工作,用以推动深度 学习模型在视频息肉分割(VPS)领域的发展。
主要贡献如下:
视频息肉分割数据集:本文提出一个名为SUN-SEG的大规模视频息肉分割数据集,其包含了从SUN中选取的158690个视频帧。本文还提供了各类标签,包括:属性标签、目标掩码、边缘标签、线标签和多边形标签,用于进一步推动结肠镜诊断、定位及其衍生任务的发展。
视频息肉分割基线模型:本文设计了一个简单且高效的视频息肉分割基线模型,名为PNS+, 其由一个全局编码器、一个局部编码器和两个归一化自注意力(NS)模块组成。全局编码器和局部编码器分别用于从锚帧和多个连续帧中提取长期和短期表征。归一化自注意力模块则用于在所提取特征之间耦合注意力线索时,动态地更新感受野。实验表明PNS+在具有挑战性的SUN-SEG数据集上取得了最佳性能。
基于归一化自注意力(NS)模块(b)的PNS+网络的框架流程图(a)
视频息肉分割评测基准:为了对视频息肉分割发展提供更为全面的理解,本文进行了首个 大规模基准评测,其包含了对13个(5个基于图像和8个基于视频)前沿的息肉分割/目标分割方法进行评测。根据评测基准的结果,本文观察到视频息肉分割任务尚未很好的解决。 这为未来进一步的探索留下了很大的空间。
如果篇首注明了授权来源,任何转载需获得来源方的许可!如果篇首未特别注明出处,本文版权属于 X-MOL ( x-mol.com ), 未经许可,谢绝转载!