AI 横扫医学问答，赢麻了？牛津大学团队实锤 AI 临床短板

大数据文摘 · 公众号 · 大数据 · 2025-05-13 14:00

正文

请到「今天看啥」查看全文

可一旦让真实用户自己来和大模型互动，情况就变了味 ：用AI辅助以后，大家反而只在34.5%的场景下能说出正确疾病名， 比不看AI、自己查资料的还差 。选对处理方式的概率，也没比对照组更高。AI越聪明，用户却越“迷糊”。

大语言模型单独使用及与用户协作的表现

为什么会这样？研究团队发现，并不是AI本身不行，而是 “人和AI”这个配合环节，掉了链子 。比如，用户描述症状时信息不全，AI就诊断失误；A I给了2.2个可能选项，用户只会采纳1.33个，其中三分之一还选错了 。模型说得再明白，用户没能听懂，或者没按建议去做，那些医学知识就像被锁进了黑箱。

如上图，在多个大语言模型（如 GPT-4o、LLaMA 3 70B 和 Command R+）在医学问答任务（MedQA）中的表现，并与人类用户进行了对比。结果表明，尽管模型在标准问答任务中普遍达到或超过人类通过标准（60%），但 在模拟临床场景中的判断任务（如确定最佳处理方式和相关疾病条件）上表现不稳定。 此外，模拟用户的判断准确性与真实人类用户的表现高度相关，说明模拟用户在实验中可以有效代表人类行为。

请到「今天看啥」查看全文

推荐文章

法律读库 · 邹建章：司法考试考中的四个大忌

8 年前

墨香中华 · 【榜单】中国大学之最排行榜公布! 帅哥最多的大学竟然是...

8 年前

冷丫 · 污丫讲段子：我喜欢吃老板娘家豆腐

8 年前

老高电商圈子 · 年过70，和女儿一样患了癌症，柳传志给马云等大佬分享了这些...

8 年前

二更食堂 · 99％的人不会和真爱结婚

8 年前