cover_image

NBE | 复旦大学颜波团队提出了一种通过利用可控的生成式人工智能的有效策略,从有限的医学数据中开发基础模型!

iNature
2025年03月07日 01:14
图片

iNature


基础模型是在海量数据集上进行预训练的。然而,收集医疗数据集既昂贵又耗时,而且会引发隐私问题。

2025年3月5日,复旦大学颜波团队在Nature Biomedical Engineering(IF=27.7) 在线发表题为“A data-efficient strategy for building high-performing medical foundation models”的研究论文,该研究展示了通过疾病标签条件生成的合成数据可以用于构建高性能的医学基础模型。

研究人员对视网膜基础模型进行了预处理,首先使用了大约一百万张具有与真实副本一致的生理结构和特征分布的合成视网膜图像,然后使用了最近报告的视网膜基础模型(RETFound)中所需的904,170张真实世界彩色眼底照相图像中的16.7%。在九个公共数据集和四个诊断任务上,数据高效模型的性能与RETFound一样好或更好;对于糖尿病视网膜病变分级,它只使用了RETFound使用的40%的专家注释训练数据。还通过建立一个分类器来检测胸部X射线图像上的结核病,来支持数据有效策略的可推广性。合成数据的文本条件生成可以增强医学基础模型的性能和泛化。

图片

医学基础模型最近出现在多个领域,如眼科、网络生物学、病理图像分析和胸部放射学,为可应用于众多下游任务的医学人工智能(AI)的发展提供了新的方向。医学基础模型是对大量数据进行预处理,以提取可概括的特征表示。研究人员可以通过使用带有明确标签的少量数据对这些模型进行微调,从而轻松地使这些模型适应特定的任务。然而,对大量医学数据的需求给医学基础模型的开发带来了巨大的挑战。获取大量医疗数据非常昂贵且耗时,尤其是在需要高精度设备的领域,如磁共振成像(MRI)和长期患者跟踪,如肿瘤学和神经退行性疾病。

此外,大规模的预训练医疗数据通常从多个中心收集到一个集中的机构,这大大增加了暴露患者隐私的风险,因为集中的中心可以访问一组丰富的个人患者信息。鉴于这些挑战,开发一种具有高数据效率的预训练范式对于从有限的真实世界预训练数据集构建医学基础模型至关重要。这种方法可以有效地缓解目前阻碍医学基础模型发展的几个问题,包括数据稀缺、广泛的资源需求和隐私问题。

图片

利用生成式人工智能构建医学基础模型的数据高效策略概述(图源自Nature

在这项工作中,研究人员描述了一种数据高效的策略,该策略使用生成式人工智能来放大预训练数据集,以从真实视网膜图像的有限集合(150k)中构建视网膜基础模型RETFound-DE。当适用于各种眼疾检测任务时,RETFound-DE在眼疾检测、标记和微调效率方面表现出色。变量控制实验证明了生成的数据对使用有限的预训练数据集构建ret-recond-DE的积极影响。该工作显示了在基础模型开发的数据集采集中节省大量成本的潜力,从而为其他疾病提供了一种有效的解决方案,这些疾病曾经由于数据有限而不鼓励建立基础模型。


原文链接:
https://www.nature.com/articles/s41551-025-01365-0#Sec24
图片

END

内容为【iNature】公众号原创,

转载请写明来源于【iNature】


微信加群


iNature汇集了4万名生命科学的研究人员及医生。我们组建了80个综合群(16个PI群及64个博士群),同时更具专业专门组建了相关专业群(植物,免疫,细胞,微生物,基因编辑,神经,化学,物理,心血管,肿瘤等群)。温馨提示:进群请备注一下(格式如学校+专业+姓名,如果是PI/教授,请注明是PI/教授,否则就直接默认为在读博士,谢谢)。可以先加小编微信号(love_iNature),或者是长按二维码,添加小编,之后再进相关的群,非诚勿扰。


图片


图片

投稿、合作、转载授权事宜

请联系微信ID:13701829856 或邮箱:iNature2020@163.com



觉得本文好看,请点这里!

继续滑动看下一个
iNature
向上滑动看下一个