专栏名称: 大数据文摘
普及数据思维,传播数据文化
目录
相关文章推荐
51好读  ›  专栏  ›  大数据文摘

GPT4.5发布,价格是DeepSeek的280倍,他们是真没活了。

大数据文摘  · 公众号  · 大数据  · 2025-02-28 15:00

正文

请到「今天看啥」查看全文


GPT4.5:36.7%,GPT4o:9.3%,o3-mini(high):87.3%。

记住这几个数据。

03-mini(high)的数据是没问题的,跟之前发布o3-mini的时候得分一致。


但是在o1发布的时候,我明明记得,对比图里的4o的AIME2024的得分,是13.4啊。


怎么今天这发了个GPT4.5,GPT4o的评分还能掉4个点的,这也太抽象了。。。

然后就是一个他们引以为豪的 世界知识。

第一个是准确度,第二个幻觉率,有一说一,这块确实不错,至少是OpenAI家最准的模型了。

他们自己列了一个还算比较好玩的题,让GPT-1到GPT-4.5全都答了一遍,这个世纪问题是这样的:

人类的第一种语言是什么?

GPT-1是这样的,非常抽象。

GPT-2和GPT-3.5是这样的。

到了GPT-4,会好点,但不多。

而GPT4.5,终于会诚实的告诉你,我不知道了,这是一个未解之谜。

至于代码这块,本身也不是推理模型,所以也并没有指望特别多强。

不过根据三方的基准测试,就纯能力上,看着还行,打不过Claude 3.7 Sonnet也正常,再怎么说那也是Claude。

X上有大佬也测了下那个经典的物理小球case,效果挺不错的。







请到「今天看啥」查看全文