专栏名称: AI与医学

分享前沿的人工智能与医学交叉研究，提供医疗科研服务。关注大壮，科研顺畅。做医护人员科研的小助手，为您全心全意服务。

顶刊速看:《NATURE MEDICINE》 IF=58.7 临床医生与视觉语言模型在放射学报告生成...

AI与医学 · 公众号 · · 2024-11-17 07:55

正文

请到「今天看啥」查看全文

1 自动化报告生成指标

1.1 CheXpert 和 RadGraph F1 得分表现优异

（1）Flamingo-CXR 在 MIMIC-CXR 数据集上的 CheXpert F1 得分为 0.519，RadGraph F1 得分为 0.205。

（2）相较于最新技术方法，CheXpert F1 得分提高 33%（从 0.389 提升），RadGraph F1 得分提高 33%（从 0.154 提升）。

1.2 文本生成能力的全面性

（1）Flamingo-CXR 同时生成报告的“发现”和“印象”部分，在更长文本评估中依然具有竞争力。

（2）在仅生成“发现”部分的评估中，其 CheXpert F1 得分也超过当前最新技术方法（高出 1%）。

1.3 自然语言生成（NLG）指标表现差异化

（1）BLEU4 和 Rouge 得分具有竞争力，但 CIDEr 得分稍低。

（2）此结果符合 NLG 指标不能完全反映生成报告临床准确性的观察。

1.4 临床准确性显著改进

相较于现有方法，Flamingo-CXR 提供了更高的临床准确性。

2 与人类放射科医师的疾病分类对比

（1） Flamingo-CXR 在 IND1 数据集中描述六种胸部临床状况的准确性（微平均 F1 得分）与两名放射科医师中的一位相当。

（2）对于高频状况（如心脏肥大、胸腔积液），模型与专家标注的一致性（Kendall’s tau 系数）可达到或超过两位放射科医师的水平。

（3）对于低频状况（如水肿和纵隔增宽，患病率分别为 0.19% 和 0.15%），模型的一致性得分低于放射科医师。

（4）ROC 曲线显示，不同患病率的状况间，模型的分类准确性存在差异，符合临床数据分布规律。

3 对AI生成报告和人工撰写报告的专家评估

（1）为更细致和真实地评估模型生成的放射学报告的临床质量，对 MIMIC-CXR 和 IND1 数据集中的报告进行了专家评估。

（2）邀请了来自美国的 11 名和印度的 16 名具有执业资格认证的放射科医师参与评估。完成了两项互补的评估任务：成对偏好测试、错误纠正任务。

4 成对偏好测试

（1）放射科医生评估AI生成的放射报告（Flamingo-CXR）与原始报告（GT）的优劣时

在IND1数据集中，77.7%的病例中AI报告被认为优于或等同于GT报告，正常病例中这一比例更高（94%）
在MIMIC-CXR数据集中，偏好比例较低（56.1%），主要原因是训练数据规模较小且报告内容更复杂。

（2） IND1数据集中的病例一致性较高，达到了44%，其中正常病例的一致性最高（76%），大多数为等同评价。

（3）AI报告在结构化和常见场景下表现优异，但在复杂场景（如MIMIC-CXR）中存在挑战。不同地区评审员对报告的一致性分布接近。

5 错误修正评估

（1）在胸部X光片报告的评估中，MIMIC-CXR和IND1数据集中的原始报告存在超过10%的临床显著错误，异常病例错误频率较高。

请到「今天看啥」查看全文

推荐文章

河北新闻广播 · 河北省教育考试院最新发布

22 小时前

河北交通广播 · 北大回应青年教师韦东奕健康问题

昨天

河北交通广播 · 强对流 + 暴雨 + 大雾！高考第二天，10 级雷暴大风将横扫多地

3 天前

河北交通广播 · 疑似因歌手补位垫底被淘汰，范玮琪演唱会门票跌至5.6折

3 天前

河北交通广播 · 对送考车辆违反尾号限行免予处罚北京高考保障措施“上新”

3 天前

极客公园 · 联想 YOGA 5 Pro 体验：可能是「二合一电脑」最好的样子

8 年前

魔鬼心理学 · 对你说这10句话的男人，一定不爱你！

8 年前

央视财经 · 【实用】现学现用！20种饺子包法，你家绝对需要！

8 年前

硅谷密探 · Uber的负面消息接连不断，总裁又确定辞职了……

8 年前

教育百师通 · 这张给家长的试卷震撼无数人！爸妈请自评，看你能得几分？

8 年前