Our official English website, www.x-mol.net, welcomes your
feedback! (Note: you will need to create a separate account there.)
Comparing Commercial and Open-Source Large Language Models for Labeling Chest Radiograph Reports.
Radiology ( IF 12.1 ) Pub Date : 2024-10-01 , DOI: 10.1148/radiol.241139 Felix J Dorfner,Liv Jürgensen,Leonhard Donle,Fares Al Mohamad,Tobias R Bodenmann,Mason C Cleveland,Felix Busch,Lisa C Adams,James Sato,Thomas Schultz,Albert E Kim,Jameson Merkow,Keno K Bressem,Christopher P Bridge
Radiology ( IF 12.1 ) Pub Date : 2024-10-01 , DOI: 10.1148/radiol.241139 Felix J Dorfner,Liv Jürgensen,Leonhard Donle,Fares Al Mohamad,Tobias R Bodenmann,Mason C Cleveland,Felix Busch,Lisa C Adams,James Sato,Thomas Schultz,Albert E Kim,Jameson Merkow,Keno K Bressem,Christopher P Bridge
Background Rapid advances in large language models (LLMs) have led to the development of numerous commercial and open-source models. While recent publications have explored OpenAI's GPT-4 to extract information of interest from radiology reports, there has not been a real-world comparison of GPT-4 to leading open-source models. Purpose To compare different leading open-source LLMs to GPT-4 on the task of extracting relevant findings from chest radiograph reports. Materials and Methods Two independent datasets of free-text radiology reports from chest radiograph examinations were used in this retrospective study performed between February 2, 2024, and February 14, 2024. The first dataset consisted of reports from the ImaGenome dataset, providing reference standard annotations from the MIMIC-CXR database acquired between 2011 and 2016. The second dataset consisted of randomly selected reports created at the Massachusetts General Hospital between July 2019 and July 2021. In both datasets, the commercial models GPT-3.5 Turbo and GPT-4 were compared with open-source models that included Mistral-7B and Mixtral-8 × 7B (Mistral AI), Llama 2-13B and Llama 2-70B (Meta), and Qwen1.5-72B (Alibaba Group), as well as CheXbert and CheXpert-labeler (Stanford ML Group), in their ability to accurately label the presence of multiple findings in radiograph text reports using zero-shot and few-shot prompting. The McNemar test was used to compare F1 scores between models. Results On the ImaGenome dataset (n = 450), the open-source model with the highest score, Llama 2-70B, achieved micro F1 scores of 0.97 and 0.97 for zero-shot and few-shot prompting, respectively, compared with the GPT-4 F1 scores of 0.98 and 0.98 (P > .99 and < .001 for superiority of GPT-4). On the institutional dataset (n = 500), the open-source model with the highest score, an ensemble model, achieved micro F1 scores of 0.96 and 0.97 for zero-shot and few-shot prompting, respectively, compared with the GPT-4 F1 scores of 0.98 and 0.97 (P < .001 and > .99 for superiority of GPT-4). Conclusion Although GPT-4 was superior to open-source models in zero-shot report labeling, few-shot prompting with a small number of example reports closely matched the performance of GPT-4. The benefit of few-shot prompting varied across datasets and models. © RSNA, 2024 Supplemental material is available for this article.
中文翻译:
比较用于标记胸片报告的商业和开源大型语言模型。
背景 大型语言模型 (LLMs导致了许多商业和开源模型的发展。虽然最近的出版物探索了 OpenAI 的 GPT-4 以从放射学报告中提取感兴趣的信息,但尚未将 GPT-4 与领先的开源模型进行真实世界的比较。目的 比较不同的领先开源 LLMs 与 GPT-4 在从胸片报告中提取相关发现的任务。材料和方法 在 2024 年 2 月 2 日至 2024 年 2 月 14 日期间进行的这项回顾性研究中使用了来自胸片检查的自由文本放射学报告的两个独立数据集。第一个数据集由来自 ImaGenome 数据集的报告组成,提供了来自 2011 年至 2016 年间获得的 MIMIC-CXR 数据库的参考标准注释。第二个数据集由 2019 年 7 月至 2021 年 7 月期间在马萨诸塞州总医院创建的随机选择报告组成。在这两个数据集中,商业模型 GPT-3.5 Turbo 和 GPT-4 与开源模型进行了比较,这些模型包括 Mistral-7B 和 Mixtral-8 × 7B (Mistral AI)、Llama 2-13B 和 Llama 2-70B (Meta) 和 Qwen1.5-72B (阿里巴巴集团),以及 CheXbert 和 CheXpert-labeler (Stanford ML Group),它们能够使用零镜头和少镜头提示准确标记 X 照片文本报告中多个发现的存在。McNemar 检验用于比较模型之间的 F1 分数。结果 在 ImaGenome 数据集 (n = 450) 上,得分最高的开源模型 Llama 2-70B 在零镜头和少镜头提示方面的微 F1 得分分别为 0.97 和 0.97,而 GPT-4 F1 得分分别为 0.98 和 0.98 (P > .99 和 < .001 GPT-4 的优越性)。 在机构数据集 (n = 500) 上,得分最高的开源模型,即集成模型,零镜头和小镜头提示的微 F1 分数分别为 0.96 和 0.97,而 GPT-4 F1 分数分别为 0.98 和 0.97(P < .001 和 > .99 GPT-4 的优越性)。结论 尽管 GPT-4 在零样本报告标记方面优于开源模型,但具有少量示例报告的少样本提示与 GPT-4 的性能非常匹配。小样本提示的好处因数据集和模型而异。© RSNA,2024 年本文提供补充材料。
更新日期:2024-10-01
中文翻译:
比较用于标记胸片报告的商业和开源大型语言模型。
背景 大型语言模型 (LLMs导致了许多商业和开源模型的发展。虽然最近的出版物探索了 OpenAI 的 GPT-4 以从放射学报告中提取感兴趣的信息,但尚未将 GPT-4 与领先的开源模型进行真实世界的比较。目的 比较不同的领先开源 LLMs 与 GPT-4 在从胸片报告中提取相关发现的任务。材料和方法 在 2024 年 2 月 2 日至 2024 年 2 月 14 日期间进行的这项回顾性研究中使用了来自胸片检查的自由文本放射学报告的两个独立数据集。第一个数据集由来自 ImaGenome 数据集的报告组成,提供了来自 2011 年至 2016 年间获得的 MIMIC-CXR 数据库的参考标准注释。第二个数据集由 2019 年 7 月至 2021 年 7 月期间在马萨诸塞州总医院创建的随机选择报告组成。在这两个数据集中,商业模型 GPT-3.5 Turbo 和 GPT-4 与开源模型进行了比较,这些模型包括 Mistral-7B 和 Mixtral-8 × 7B (Mistral AI)、Llama 2-13B 和 Llama 2-70B (Meta) 和 Qwen1.5-72B (阿里巴巴集团),以及 CheXbert 和 CheXpert-labeler (Stanford ML Group),它们能够使用零镜头和少镜头提示准确标记 X 照片文本报告中多个发现的存在。McNemar 检验用于比较模型之间的 F1 分数。结果 在 ImaGenome 数据集 (n = 450) 上,得分最高的开源模型 Llama 2-70B 在零镜头和少镜头提示方面的微 F1 得分分别为 0.97 和 0.97,而 GPT-4 F1 得分分别为 0.98 和 0.98 (P > .99 和 < .001 GPT-4 的优越性)。 在机构数据集 (n = 500) 上,得分最高的开源模型,即集成模型,零镜头和小镜头提示的微 F1 分数分别为 0.96 和 0.97,而 GPT-4 F1 分数分别为 0.98 和 0.97(P < .001 和 > .99 GPT-4 的优越性)。结论 尽管 GPT-4 在零样本报告标记方面优于开源模型,但具有少量示例报告的少样本提示与 GPT-4 的性能非常匹配。小样本提示的好处因数据集和模型而异。© RSNA,2024 年本文提供补充材料。