专栏名称: 数据何规
数据安全及个人信息保护。
目录
相关文章推荐
中科院物理所  ·  一米有多长,一公斤有多重? ·  昨天  
中科院物理所  ·  夏天也会“冻死人”!户外运动需警惕! ·  2 天前  
中科院物理所  ·  跟着小小的黏菌去计算大大的宇宙 ·  2 天前  
51好读  ›  专栏  ›  数据何规

GPT-4.5问世!主打高情商!比DeepSeek贵280倍

数据何规  · 公众号  ·  · 2025-02-28 08:00

正文

请到「今天看啥」查看全文



image.png
image.png
图源:https://x.com/ScottWu46/status/1895209597084017073

从今天开始,ChatGPT Pro 用户可以在网页版、手机版和桌面版使用 GPT-4.5。下周将向 Plus 和 Team 用户开放,再下周向企业和 Edu 用户开放。

现在,GPT-4.5 只支持搜索、上传文件和图片和画布功能,还不支持语音模式、视频和屏幕共享等多模态功能。OpenAI 表示,未来会持续更新,让产品变得更容易使用。

基准测试结果

OpenAI 首先在 SimpleQA(评估模型的事实性回答能力)数据集上进行了测试,其中 GPT-4.5 的准确率最高,超越了前代 GPT-4o、o1 和 o3-mini,展现了 GPT-4.5 拥有惊人的世界知识。

image.png

同时,GPT-4.5 的幻觉率也最低。

image.png

OpenAI 其次测试了人类协作训练水平。

随着模型不断扩展并解决更复杂的问题,教会它们更好地理解人类的需求和意图变得越来越重要。对于 GPT-4.5,OpenAI 开发了全新的可扩展技术,可以使用来自较小模型的数据来训练更大、更强的模型。这些技术提高了 GPT-4.5 的可操纵性、对细微差别的理解和自然对话水平。

下图人类偏好衡量结果显示,测试人员更喜欢 GPT-4.5 查询而不是 GPT-4o。

image.png

OpenAI 表示,将对世界的深刻理解与更佳的协作相结合,可以使得模型在更适合人类协作的「热情直观对话」中自然地整合想法。GPT-4.5 能够更好地理解人类的意思,并以更细致入微的「情商」来解读微妙的暗示或隐含的期望。此外,GPT-4.5 还表现出了更强的审美直觉和创造力,它擅长帮助写作和设计。

比如「在考试失败后,正在经历一段艰难的时光」,GPT-4.5 能够给你更拟人的安慰「哎呀,听到这个消息我真的很遗憾。考试失败会让人感到很艰难和沮丧,但请记住,这只是一个瞬间 —— 并不反映你的身份或能力。想谈谈发生了什么,还是你只是需要分散注意力?无论如何,我都在这里。」。






请到「今天看啥」查看全文