专栏名称: 梅斯医学
梅斯医学(MedSci)是国内领先的医学科研与学术服务平台,致力于医疗质量的改进,为临床实践提供智慧、精准的决策支持,让医生与患者受益。
目录
相关文章推荐
重庆晨报  ·  今日·重庆晨报 | ... ·  18 小时前  
重庆晨报  ·  今日·重庆晨报 | ... ·  18 小时前  
解螺旋  ·  不要问是ChatGPT好,还是Claude好 ... ·  3 天前  
丁香园  ·  这种病几乎 100% ... ·  2 天前  
51好读  ›  专栏  ›  梅斯医学

警惕!大语言模型在医学引用上仍存在重大缺陷!Nature子刊研究:过半回答无依据,知名AI接连翻车!

梅斯医学  · 公众号  · 医学  · 2025-05-04 07:50

正文

请到「今天看啥」查看全文


研究方法:

SourceCheckup如何“拷问”LLMs?


为解决这一难题,斯坦福团队开发了 SourceCheckup,这是一个基于代理的自动化评估框架。该框架包含四个主要模块:问题生成、LLM 回答、陈述和 URL 源解析以及源验证。研究团队首先从梅奥诊所和Reddit的医疗问答中收集了800个医学问题,涵盖常见医学查询。然后要求7个主流模型(如GPT-4o、Claude、Gemini)生成回答并附带文献来源。这些模型的回答随后被解析为独立可验证的医学回答。最后,检查每个回答是否至少被一个引用文献支持,并与3名医学专家共识对比。




研究发现:

LLMs医学引用质量参差不齐


研究结果显示, 在评估的七个LLMs中,50% 到 90% 的回答未得到完全支持,甚至有时与引用的来源相矛盾 。未联网的模型(如GPT-4 API)仅40%-70%的回答有效,联网模型(如GPT-4o RAG)虽无“编造链接”,但55%的回答未被完全支持。例如GPT-4o(RAG)表现相对最佳,但仍有30%的回答无依据,Gemini Ultra 1.0(RAG)更是低至 34.5%,而开源模型(如Llama-2)几乎无法生成有效回答。



尽管这些回答得到了医学专家的验证:随机抽查110个GPT-4o的“无依据回答”,医生确认95.8%的判断准确。但是 参差不齐的质量仍是LLMs医学引用的“硬伤”







请到「今天看啥」查看全文