【[28星]AbstentionBench:大语言模型的“谨慎回答”基准测试工具。它能帮助评估LLM在面对无法回答的问题时的“拒绝回答”能力,这对于可靠部署LLM至关重要。亮点:1. 覆盖20个数据集,包括3个新的未明确指定推理挑战;2. 支持20种开放和封闭的LLM模型;3. 提供人类验证的评估结果,确保评估的准确性。】
知名互联网资讯博主 北邮PRIS模式识别实验室陈老师 |
|
新智元 · 清华校友打造人形机器人最靓「小腰精」!商场擦 ... · 7 小时前 |
|
yikai 的摸鱼笔记 · 专访Granola ... · 昨天 |
|
yikai 的摸鱼笔记 · 专访Granola ... · 昨天 |
![]() |
爱可可-爱生活 · 《爱可可微博热门分享(6.17)》 ... · 昨天 |
![]() |
爱可可-爱生活 · 《AI世界的“社交难题”:光会拉黑还不够》, ... · 2 天前 |
|
新机器视觉 · 双目视觉原理及流程概述 · 2 天前 |
|
新智元 · 清华校友打造人形机器人最靓「小腰精」!商场擦鞋熊猫陪玩,订单爆棚 7 小时前 |
|
yikai 的摸鱼笔记 · 专访Granola CEO:打造让思考更高效的AI笔记应用 昨天 |
|
yikai 的摸鱼笔记 · 专访Granola CEO:打造让思考更高效的AI笔记应用 昨天 |
![]() |
爱可可-爱生活 · 《爱可可微博热门分享(6.17)》 爱可可微博热门分享(6.1-20250617223631 昨天 |
![]() |
爱可可-爱生活 · 《AI世界的“社交难题”:光会拉黑还不够》,分享给你听听~ 网页-20250617141519 2 天前 |
|
新机器视觉 · 双目视觉原理及流程概述 2 天前 |
|
公主岭帮 · 终于抓村官了,刚刚公布! 8 年前 |
|
热门视频集汇 · 美女摔倒昏迷,监控拍下一瞬间,太可怕了! 8 年前 |
|
每日必看军事 · 佛医生教你60秒立马睡着,自己试一次,准一次 8 年前 |
|
国际业务研究院 · 一文看懂中国版CRS,何事惊慌!金融人必读 8 年前 |
|
午夜漫画站 · 邪恶漫画:完全变了 7 年前 |