正文
1 自动化报告生成指标
1.1 CheXpert 和 RadGraph F1 得分表现优异
(1)Flamingo-CXR 在 MIMIC-CXR 数据集上的 CheXpert F1 得分为 0.519,RadGraph F1 得分为 0.205。
(2)相较于最新技术方法,CheXpert F1 得分提高 33%(从 0.389 提升),RadGraph F1 得分提高 33%(从 0.154 提升)。
1.2 文本生成能力的全面性
(1)Flamingo-CXR 同时生成报告的“发现”和“印象”部分,在更长文本评估中依然具有竞争力。
(2)在仅生成“发现”部分的评估中,其 CheXpert F1 得分也超过当前最新技术方法(高出 1%)。
1.3 自然语言生成(NLG)指标表现差异化
(1)BLEU4 和 Rouge 得分具有竞争力,但 CIDEr 得分稍低。
(2)此结果符合 NLG 指标不能完全反映生成报告临床准确性的观察。
1.4 临床准确性显著改进
相较于现有方法,Flamingo-CXR 提供了更高的临床准确性。
2 与人类放射科医师的疾病分类对比
(1)
Flamingo-CXR 在 IND1 数据集中描述六种胸部临床状况的准确性(微平均 F1 得分)与两名放射科医师中的一位相当。
(2)对于高频状况(如心脏肥大、胸腔积液),模型与专家标注的一致性(Kendall’s tau 系数)可达到或超过两位放射科医师的水平。
(3)对于低频状况(如水肿和纵隔增宽,患病率分别为 0.19% 和 0.15%),模型的一致性得分低于放射科医师。
(4)ROC 曲线显示,不同患病率的状况间,模型的分类准确性存在差异,符合临床数据分布规律。
3 对AI生成报告和人工撰写报告的专家评估
(1)为更细致和真实地评估模型生成的放射学报告的临床质量,对 MIMIC-CXR 和 IND1 数据集中的报告进行了专家评估。
(2)邀请了来自美国的 11 名和印度的 16 名具有执业资格认证的放射科医师参与评估。
完成了两项互补的评估任务:
成对偏好测试、
错误纠正任务。
4 成对偏好测试
(1)放射科医生评估AI生成的放射报告(Flamingo-CXR)与原始报告(GT)的优劣时
(2)
IND1数据集中的病例一致性较高,达到了44%,其中正常病例的一致性最高(76%),大多数为等同评价。
(3)AI报告在结构化和常见场景下表现优异,但在复杂场景(如MIMIC-CXR)中存在挑战。
不同地区评审员对报告的一致性分布接近。
5 错误修正评估
(1)在胸部X光片报告的评估中,MIMIC-CXR和IND1数据集中的原始报告存在超过10%的临床显著错误,异常病例错误频率较高。