Our official English website, www.x-mol.net, welcomes your
feedback! (Note: you will need to create a separate account there.)
Accuracy of an Artificial Intelligence System for Interval Breast Cancer Detection at Screening Mammography.
Radiology ( IF 12.1 ) Pub Date : 2024-08-01 , DOI: 10.1148/radiol.232303 Muzna Nanaa 1 , Vaishnavi O Gupta 1 , Sarah E Hickman 1 , Iris Allajbeu 1 , Nicholas R Payne 1 , Otso Arponen 1 , Richard Black 1 , Yuan Huang 1 , Andrew N Priest 1 , Fiona J Gilbert 1
Radiology ( IF 12.1 ) Pub Date : 2024-08-01 , DOI: 10.1148/radiol.232303 Muzna Nanaa 1 , Vaishnavi O Gupta 1 , Sarah E Hickman 1 , Iris Allajbeu 1 , Nicholas R Payne 1 , Otso Arponen 1 , Richard Black 1 , Yuan Huang 1 , Andrew N Priest 1 , Fiona J Gilbert 1
Affiliation
Background Artificial intelligence (AI) systems can be used to identify interval breast cancers, although the localizations are not always accurate. Purpose To evaluate AI localizations of interval cancers (ICs) on screening mammograms by IC category and histopathologic characteristics. Materials and Methods A screening mammography data set (median patient age, 57 years [IQR, 52-64 years]) that had been assessed by two human readers from January 2011 to December 2018 was retrospectively analyzed using a commercial AI system. The AI outputs were lesion locations (heatmaps) and the highest per-lesion risk score (range, 0-100) assigned to each case. AI heatmaps were considered false positive (FP) if they occurred on normal screening mammograms or on IC screening mammograms (ie, in patients subsequently diagnosed with IC) but outside the cancer boundary. A panel of consultant radiology experts classified ICs as normal or benign (true negative [TN]), uncertain (minimal signs of malignancy [MS]), or suspicious (false negative [FN]). Several specificity and sensitivity thresholds were applied. Mann-Whitney U tests, Kruskal-Wallis tests, and χ2 tests were used to compare groups. Results A total of 2052 screening mammograms (514 ICs and 1548 normal mammograms) were included. The median AI risk score was 50 (IQR, 32-82) for TN ICs, 76 (IQR, 41-90) for ICs with MS, and 89 (IQR, 81-95) for FN ICs (P = .005). Higher median AI scores were observed for invasive tumors (62 [IQR, 39-88]) than for noninvasive tumors (33 [IQR, 20-55]; P < .01) and for high-grade (grade 2-3) tumors (62 [IQR, 40-87]) than for low-grade (grade 0-1) tumors (45 [IQR, 26-81]; P = .02). At the 96% specificity threshold, the AI algorithm flagged 121 of 514 (23.5%) ICs and correctly localized the IC in 93 of 121 (76.9%) cases, with 48 FP heatmaps on the mammograms for ICs (rate, 0.093 per case) and 74 FP heatmaps on normal mammograms (rate, 0.048 per case). The AI algorithm correctly localized a lower proportion of TN ICs (54 of 427; 12.6%) than ICs with MS (35 of 76; 46%) and FN ICs (four of eight; 50% [95% CI: 13, 88]; P < .001). The AI algorithm localized a higher proportion of node-positive than node-negative cancers (P = .03). However, no evidence of a difference by cancer type (P = .09), grade (P = .27), or hormone receptor status (P = .12) was found. At 89.8% specificity and 79% sensitivity thresholds, AI detection increased to 181 (35.2%) and 256 (49.8%) of the 514 ICs, respectively, with FP heatmaps on 158 (10.2%) and 307 (19.8%) of the 1548 normal mammograms. Conclusion Use of a standalone AI system improved early cancer detection by correctly identifying some cancers missed by two human readers, with no differences based on histopathologic features except for node-positive cancers. © RSNA, 2024 Supplemental material is available for this article.
中文翻译:
人工智能系统在筛查乳腺 X 光检查中进行间歇性乳腺癌检测的准确性。
背景 人工智能 (AI) 系统可用于识别间期乳腺癌,尽管定位并不总是准确。目的 根据 IC 类别和组织病理学特征评估筛查乳房 X 光检查中间隔癌 (IC) 的 AI 定位。材料和方法使用商业人工智能系统对 2011 年 1 月至 2018 年 12 月期间由两名人类读者评估的筛查乳房 X 光检查数据集(患者中位年龄,57 岁 [IQR,52-64 岁])进行回顾性分析。 AI 输出是病变位置(热图)和分配给每个病例的每个病变的最高风险评分(范围,0-100)。如果 AI 热图出现在正常筛查乳房 X 光检查或 IC 筛查乳房 X 光检查(即,在随后诊断为 IC 的患者中)但在癌症边界之外,则被视为假阳性 (FP)。放射学顾问专家小组将 IC 分类为正常或良性(真阴性 [TN])、不确定(最小的恶性肿瘤迹象 [MS])或可疑(假阴性 [FN])。应用了几个特异性和敏感性阈值。 Mann-Whitney U 检验、Kruskal-Wallis 检验和 χ2 检验用于组间比较。结果 共纳入 2052 张筛查乳房 X 光照片(514 张 IC 和 1548 张正常乳房 X 光照片)。 TN IC 的 AI 风险中位数评分为 50(IQR,32-82),患有 MS 的 IC 为 76(IQR,41-90),FN IC 为 89(IQR,81-95)(P = .005)。侵袭性肿瘤 (62 [IQR, 39-88]) 的中位 AI 评分高于非侵袭性肿瘤 (33 [IQR, 20-55]; P < .01) 和高级别 (2-3 级)肿瘤 (62 [IQR, 40-87]) 高于低级别(0-1 级)肿瘤 (45 [IQR, 26-81];P = .02)。在 96% 特异性阈值下,AI 算法标记了 514 个中的 121 个 (23.5%)IC 并在 121 个病例中的 93 个病例(76.9%)中正确定位了 IC,IC 的乳房 X 光照片上有 48 个 FP 热图(比率,每个病例 0.093),正常乳房 X 光照片上有 74 个 FP 热图(比率,每个病例 0.048)。 AI 算法正确定位 TN IC 的比例(427 个中的 54 个;12.6%)低于具有 MS 的 IC(76 个中的 35 个;46%)和 FN IC(8 个中的 4 个;50%)(95% CI:13, 88) ; P < .001)。 AI 算法定位的淋巴结阳性癌症比例高于淋巴结阴性癌症 (P = .03)。然而,没有发现癌症类型 (P = .09)、级别 (P = .27) 或激素受体状态 (P = .12) 之间存在差异的证据。在 89.8% 的特异性和 79% 的灵敏度阈值下,AI 检测分别增加到 514 个 IC 中的 181 个 (35.2%) 和 256 个 (49.8%),其中 1548 个 IC 中的 158 个 (10.2%) 和 307 个 (19.8%) 上有 FP 热图正常的乳房X光检查。结论 使用独立的人工智能系统,通过正确识别两个人类读者漏掉的一些癌症,改善了早期癌症检测,除了淋巴结阳性癌症之外,基于组织病理学特征没有差异。 © RSNA,2024 本文提供补充材料。
更新日期:2024-08-01
中文翻译:
人工智能系统在筛查乳腺 X 光检查中进行间歇性乳腺癌检测的准确性。
背景 人工智能 (AI) 系统可用于识别间期乳腺癌,尽管定位并不总是准确。目的 根据 IC 类别和组织病理学特征评估筛查乳房 X 光检查中间隔癌 (IC) 的 AI 定位。材料和方法使用商业人工智能系统对 2011 年 1 月至 2018 年 12 月期间由两名人类读者评估的筛查乳房 X 光检查数据集(患者中位年龄,57 岁 [IQR,52-64 岁])进行回顾性分析。 AI 输出是病变位置(热图)和分配给每个病例的每个病变的最高风险评分(范围,0-100)。如果 AI 热图出现在正常筛查乳房 X 光检查或 IC 筛查乳房 X 光检查(即,在随后诊断为 IC 的患者中)但在癌症边界之外,则被视为假阳性 (FP)。放射学顾问专家小组将 IC 分类为正常或良性(真阴性 [TN])、不确定(最小的恶性肿瘤迹象 [MS])或可疑(假阴性 [FN])。应用了几个特异性和敏感性阈值。 Mann-Whitney U 检验、Kruskal-Wallis 检验和 χ2 检验用于组间比较。结果 共纳入 2052 张筛查乳房 X 光照片(514 张 IC 和 1548 张正常乳房 X 光照片)。 TN IC 的 AI 风险中位数评分为 50(IQR,32-82),患有 MS 的 IC 为 76(IQR,41-90),FN IC 为 89(IQR,81-95)(P = .005)。侵袭性肿瘤 (62 [IQR, 39-88]) 的中位 AI 评分高于非侵袭性肿瘤 (33 [IQR, 20-55]; P < .01) 和高级别 (2-3 级)肿瘤 (62 [IQR, 40-87]) 高于低级别(0-1 级)肿瘤 (45 [IQR, 26-81];P = .02)。在 96% 特异性阈值下,AI 算法标记了 514 个中的 121 个 (23.5%)IC 并在 121 个病例中的 93 个病例(76.9%)中正确定位了 IC,IC 的乳房 X 光照片上有 48 个 FP 热图(比率,每个病例 0.093),正常乳房 X 光照片上有 74 个 FP 热图(比率,每个病例 0.048)。 AI 算法正确定位 TN IC 的比例(427 个中的 54 个;12.6%)低于具有 MS 的 IC(76 个中的 35 个;46%)和 FN IC(8 个中的 4 个;50%)(95% CI:13, 88) ; P < .001)。 AI 算法定位的淋巴结阳性癌症比例高于淋巴结阴性癌症 (P = .03)。然而,没有发现癌症类型 (P = .09)、级别 (P = .27) 或激素受体状态 (P = .12) 之间存在差异的证据。在 89.8% 的特异性和 79% 的灵敏度阈值下,AI 检测分别增加到 514 个 IC 中的 181 个 (35.2%) 和 256 个 (49.8%),其中 1548 个 IC 中的 158 个 (10.2%) 和 307 个 (19.8%) 上有 FP 热图正常的乳房X光检查。结论 使用独立的人工智能系统,通过正确识别两个人类读者漏掉的一些癌症,改善了早期癌症检测,除了淋巴结阳性癌症之外,基于组织病理学特征没有差异。 © RSNA,2024 本文提供补充材料。