专栏名称: 爱可可-爱生活
知名互联网资讯博主 北邮PRIS模式识别实验室陈老师
目录
相关文章推荐
yikai 的摸鱼笔记  ·  专访Granola ... ·  昨天  
yikai 的摸鱼笔记  ·  专访Granola ... ·  昨天  
爱可可-爱生活  ·  《爱可可微博热门分享(6.17)》 ... ·  昨天  
爱可可-爱生活  ·  《AI世界的“社交难题”:光会拉黑还不够》, ... ·  2 天前  
新机器视觉  ·  双目视觉原理及流程概述 ·  2 天前  
51好读  ›  专栏  ›  爱可可-爱生活

【[28星]AbstentionBench:大语言模型的“谨慎回-20250618212953

爱可可-爱生活  · 微博  · AI  · 2025-06-18 21:29

正文

请到「今天看啥」查看全文


【[28星]AbstentionBench:大语言模型的“谨慎回答”基准测试工具。它能帮助评估LLM在面对无法回答的问题时的“拒绝回答”能力,这对于可靠部署LLM至关重要。亮点:1. 覆盖20个数据集,包括3个新的未明确指定推理挑战;2. 支持20种开放和封闭的LLM模型;3. 提供人类验证的评估结果,确保评估的准确性。】






请到「今天看啥」查看全文