专栏名称: 材料人
分享材料领域内新闻资讯,材料人网原创文章以及公告。
目录
相关文章推荐
广东民生DV现场  ·  男子“刀片嗓”以为是感冒,竟差点丧命?出现这 ... ·  11 小时前  
广东普法  ·  广东7名干部被查 ·  昨天  
广东民生DV现场  ·  淘宝被质疑“商家可查看买家浏览记录”,客服回应 ·  2 天前  
开平广播电视台  ·  每天至少一包,男子同时确诊三种癌症,最终放弃 ... ·  2 天前  
51好读  ›  专栏  ›  材料人

Nature Chemistry成果显示:大语言模型在化学上容易太自信

材料人  · 公众号  ·  · 2025-05-26 09:35

正文

请到「今天看啥」查看全文


:首次系统化对比LLMs与化学专家的表现,揭示模型在特定任务上的优势(如教科书问题)与劣势(如结构推理)。

4、自信度评估与校准研究 :通过提示模型自我评估信心水平,发现其自信度与答案正确率脱节。该研究为安全应用中的不确定性管理提供启发。


0 3
【数据概览】

图1:ChemBench框架概述。

图2:主题和所需技能的分布。

图3:ChemBench-Mini上模型和人类的性能。

图4:ChemBench-Mini上不同主题的模型和人类的表现。

图5:置信估计值的可靠性和分布。


0






请到「今天看啥」查看全文