专栏名称: 大数据文摘
普及数据思维,传播数据文化
目录
相关文章推荐
51好读  ›  专栏  ›  大数据文摘

AI 横扫医学问答,赢麻了?牛津大学团队实锤 AI 临床短板

大数据文摘  · 公众号  · 大数据  · 2025-05-13 14:00

正文

请到「今天看啥」查看全文



可一旦让真实用户自己来和大模型互动,情况就变了味 :用AI辅助以后,大家反而只在34.5%的场景下能说出正确疾病名, 比不看AI、自己查资料的还差 。选对处理方式的概率,也没比对照组更高。AI越聪明,用户却越“迷糊”。
大语言模型单独使用及与用户协作的表现

为什么会这样?研究团队发现,并不是AI本身不行,而是 “人和AI”这个配合环节,掉了链子 。比如,用户描述症状时信息不全,AI就诊断失误;A I给了2.2个可能选项,用户只会采纳1.33个,其中三分之一还选错了 。模型说得再明白,用户没能听懂,或者没按建议去做,那些医学知识就像被锁进了黑箱。


如上图,在多个大语言模型(如 GPT-4o、LLaMA 3 70B 和 Command R+)在医学问答任务(MedQA)中的表现,并与人类用户进行了对比。结果表明,尽管模型在标准问答任务中普遍达到或超过人类通过标准(60%),但 在模拟临床场景中的判断任务(如确定最佳处理方式和相关疾病条件)上表现不稳定。 此外,模拟用户的判断准确性与真实人类用户的表现高度相关,说明模拟用户在实验中可以有效代表人类行为。







请到「今天看啥」查看全文