专栏名称: 知危
提供敏锐、独到的商业信息与参考,重点关注TMT、出海、新消费、新能源。
目录
相关文章推荐
Marine Sedimentology  ·  Nature:海底是海洋微量金属生物地球化学 ... ·  11 小时前  
Marine Sedimentology  ·  Nature:海底是海洋微量金属生物地球化学 ... ·  11 小时前  
科技美学  ·  苹果新系统引领新潮流?OPPO:不跟进 ·  昨天  
爱可可-爱生活  ·  本文提出了一种名为“概率近似正确”(PAC) ... ·  2 天前  
终码一生  ·  面试官问:你写代码会复用公共 SQL 么? ·  2 天前  
51好读  ›  专栏  ›  知危

看了今天OpenAI的新品发布直播,我感觉被奥特曼耍了

知危  · 公众号  · AI 科技自媒体  · 2024-12-06 04:25

主要观点总结

本文介绍了OpenAI的新品发布直播内容,包括o1完全体模型正式版上线、o1 Pro模型的推出以及相应的ChatGPT Pro订阅和高级语音功能。文章还提到了模型效果和价格方面的信息,同时对o1预览版模型进行了评价。此外,文章还介绍了o1正式版模型的可靠性提升、多模态输入等体验上的改进,并讨论了剩余11场直播可能涉及的内容。

关键观点总结

关键观点1: OpenAI新品发布直播概述

介绍了OpenAI直播的内容,包括o1模型系列的新品推出和相关的订阅服务。

关键观点2: o1模型系列的新品特点

详细描述了o1正式版模型和o1 Pro模型的特点,包括模型能力、价格、模型效果和体验提升等方面。

关键观点3: 模型评价及期望

提及了对o1预览版模型的评价以及对正式版和Pro版的期望与失望。

关键观点4: 其他改进与新增功能

介绍了模型的其他改进和新增功能,如多模态输入、可靠性提升和回答进度条等。

关键观点5: 后续期待

表达了对于OpenAI后续直播内容的期待,包括可能的新品发布和圣诞惊喜。


正文

请到「今天看啥」查看全文



而在 模型效果上,官方纸面数据其实并没有特别大的飞跃性提升。。。

为什么这么说呢,因为根据官方给出的跑分数据, o1 正式版模型的能力仅在数学和编程方面有较大的提升,但在博士级别问题的提升上非常小,新推出的 o1 Pro 版本也仅在各方面比 o1 正式版模型提高了一点点。


要知道, o1 模型发布时主打的就是能在博士级别的回答中有出色表现,结果正式版和 Pro 版在这方面相比预览版基本没有什么提升,也是有些让人期望落空的。

知危编辑部之前找过清华、北大、南京大学的三个博士测试评价过 o1 预览版模型( 传送门 ),三位博士表示 o1 确实在思维和知识储备上达到了博士的水准,但无法对课题进行探索和提供更深的研究思路,所以并没有真正达到 “ 做学术 ” 的水平。

现在是半夜我们没办法联系之前的博士进行测试,不过从官方公布的仅仅 5 分的提高上来看,估计效果体感应该不会有什么较大区别,数据是骗不了人的。

不过,虽然模型的回答能力提升不多,但是模型的体验还是提升很大的, o1 正式版模型的重大错误犯错率比 o1 预览模板少了约 34%,同时回答速度提高了约 50% 。

直播现场对比提问了 “ 列出二世纪的罗马皇帝,包括他们的时期和成就 ” 这个问题,o1 正式版给出回答用时仅有 14 秒,比 o1 预览版的 33 秒快了近 20 秒,体感差距还是很大的。






请到「今天看啥」查看全文