专栏名称: AI与医学
分享前沿的人工智能与医学交叉研究,提供医疗科研服务。关注大壮,科研顺畅。做医护人员科研的小助手,为您全心全意服务。
目录
相关文章推荐
河北新闻广播  ·  河北省教育考试院最新发布 ·  22 小时前  
河北交通广播  ·  北大回应青年教师韦东奕健康问题 ·  昨天  
河北交通广播  ·  强对流 + 暴雨 + ... ·  3 天前  
河北交通广播  ·  对送考车辆违反尾号限行免予处罚 ... ·  3 天前  
51好读  ›  专栏  ›  AI与医学

顶刊速看:《NATURE MEDICINE》 IF=58.7 临床医生与视觉语言模型在放射学报告生成...

AI与医学  · 公众号  ·  · 2024-11-17 07:55

正文

请到「今天看啥」查看全文



1 自动化报告生成指标

1.1 CheXpert 和 RadGraph F1 得分表现优异

(1)Flamingo-CXR 在 MIMIC-CXR 数据集上的 CheXpert F1 得分为 0.519,RadGraph F1 得分为 0.205。

(2)相较于最新技术方法,CheXpert F1 得分提高 33%(从 0.389 提升),RadGraph F1 得分提高 33%(从 0.154 提升)。

1.2 文本生成能力的全面性

(1)Flamingo-CXR 同时生成报告的“发现”和“印象”部分,在更长文本评估中依然具有竞争力。

(2)在仅生成“发现”部分的评估中,其 CheXpert F1 得分也超过当前最新技术方法(高出 1%)。

1.3 自然语言生成(NLG)指标表现差异化

(1)BLEU4 和 Rouge 得分具有竞争力,但 CIDEr 得分稍低。

(2)此结果符合 NLG 指标不能完全反映生成报告临床准确性的观察。

1.4 临床准确性显著改进

相较于现有方法,Flamingo-CXR 提供了更高的临床准确性。


2 与人类放射科医师的疾病分类对比

(1) Flamingo-CXR 在 IND1 数据集中描述六种胸部临床状况的准确性(微平均 F1 得分)与两名放射科医师中的一位相当。

(2)对于高频状况(如心脏肥大、胸腔积液),模型与专家标注的一致性(Kendall’s tau 系数)可达到或超过两位放射科医师的水平。

(3)对于低频状况(如水肿和纵隔增宽,患病率分别为 0.19% 和 0.15%),模型的一致性得分低于放射科医师。

(4)ROC 曲线显示,不同患病率的状况间,模型的分类准确性存在差异,符合临床数据分布规律。

3 对AI生成报告和人工撰写报告的专家评估

(1)为更细致和真实地评估模型生成的放射学报告的临床质量,对 MIMIC-CXR 和 IND1 数据集中的报告进行了专家评估。

(2)邀请了来自美国的 11 名和印度的 16 名具有执业资格认证的放射科医师参与评估。 完成了两项互补的评估任务: 成对偏好测试、 错误纠正任务。


4 成对偏好测试

(1)放射科医生评估AI生成的放射报告(Flamingo-CXR)与原始报告(GT)的优劣时

  • 在IND1数据集中,77.7%的病例中AI报告被认为优于或等同于GT报告,正常病例中这一比例更高(94%)

  • 在MIMIC-CXR数据集中,偏好比例较低(56.1%),主要原因是训练数据规模较小且报告内容更复杂。

(2) IND1数据集中的病例一致性较高,达到了44%,其中正常病例的一致性最高(76%),大多数为等同评价。

(3)AI报告在结构化和常见场景下表现优异,但在复杂场景(如MIMIC-CXR)中存在挑战。 不同地区评审员对报告的一致性分布接近。


5 错误修正评估

(1)在胸部X光片报告的评估中,MIMIC-CXR和IND1数据集中的原始报告存在超过10%的临床显著错误,异常病例错误频率较高。







请到「今天看啥」查看全文