专栏名称: 知危

提供敏锐、独到的商业信息与参考，重点关注TMT、出海、新消费、新能源。

目录

相关文章推荐

Marine Sedimentology · Nature：海底是海洋微量金属生物地球化学 ... · 11 小时前

Marine Sedimentology · Nature：海底是海洋微量金属生物地球化学 ... · 11 小时前

科技美学 · 苹果新系统引领新潮流？OPPO：不跟进 · 昨天

爱可可-爱生活 · 本文通过实验和理论分析揭示，大语言模型微调后 ... · 2 天前

爱可可-爱生活 · 本文提出了一种名为“概率近似正确”（PAC） ... · 2 天前

终码一生 · 面试官问：你写代码会复用公共 SQL 么？ · 2 天前

51好读 › 专栏 › 知危

看了今天OpenAI的新品发布直播，我感觉被奥特曼耍了

知危 · 公众号 · AI 科技自媒体 · 2024-12-06 04:25

主要观点总结

本文介绍了OpenAI的新品发布直播内容，包括o1完全体模型正式版上线、o1 Pro模型的推出以及相应的ChatGPT Pro订阅和高级语音功能。文章还提到了模型效果和价格方面的信息，同时对o1预览版模型进行了评价。此外，文章还介绍了o1正式版模型的可靠性提升、多模态输入等体验上的改进，并讨论了剩余11场直播可能涉及的内容。

关键观点总结

关键观点1: OpenAI新品发布直播概述

介绍了OpenAI直播的内容，包括o1模型系列的新品推出和相关的订阅服务。

关键观点2: o1模型系列的新品特点

详细描述了o1正式版模型和o1 Pro模型的特点，包括模型能力、价格、模型效果和体验提升等方面。

关键观点3: 模型评价及期望

提及了对o1预览版模型的评价以及对正式版和Pro版的期望与失望。

关键观点4: 其他改进与新增功能

介绍了模型的其他改进和新增功能，如多模态输入、可靠性提升和回答进度条等。

关键观点5: 后续期待

表达了对于OpenAI后续直播内容的期待，包括可能的新品发布和圣诞惊喜。

正文

请到「今天看啥」查看全文

而在 模型效果上，官方纸面数据其实并没有特别大的飞跃性提升。。。

为什么这么说呢，因为根据官方给出的跑分数据， o1 正式版模型的能力仅在数学和编程方面有较大的提升，但在博士级别问题的提升上非常小，新推出的 o1 Pro 版本也仅在各方面比 o1 正式版模型提高了一点点。

要知道， o1 模型发布时主打的就是能在博士级别的回答中有出色表现，结果正式版和 Pro 版在这方面相比预览版基本没有什么提升，也是有些让人期望落空的。

知危编辑部之前找过清华、北大、南京大学的三个博士测试评价过 o1 预览版模型（传送门），三位博士表示 o1 确实在思维和知识储备上达到了博士的水准，但无法对课题进行探索和提供更深的研究思路，所以并没有真正达到 “ 做学术 ” 的水平。

现在是半夜我们没办法联系之前的博士进行测试，不过从官方公布的仅仅 5 分的提高上来看，估计效果体感应该不会有什么较大区别，数据是骗不了人的。

不过，虽然模型的回答能力提升不多，但是模型的体验还是提升很大的， o1 正式版模型的重大错误犯错率比 o1 预览模板少了约 34%，同时回答速度提高了约 50% 。

直播现场对比提问了 “ 列出二世纪的罗马皇帝，包括他们的时期和成就 ” 这个问题，o1 正式版给出回答用时仅有 14 秒，比 o1 预览版的 33 秒快了近 20 秒，体感差距还是很大的。

请到「今天看啥」查看全文

推荐文章

Marine Sedimentology · Nature：海底是海洋微量金属生物地球化学循环的关键驱动因素

11 小时前

Marine Sedimentology · Nature：海底是海洋微量金属生物地球化学循环的关键驱动因素

11 小时前

科技美学 · 苹果新系统引领新潮流？OPPO：不跟进

昨天

爱可可-爱生活 · 本文通过实验和理论分析揭示，大语言模型微调后的泛化与幻觉现象均源-20250614055424

2 天前

爱可可-爱生活 · 本文提出了一种名为“概率近似正确”（PAC）标注的创新方法，它通-20250614060022

2 天前

终码一生 · 面试官问：你写代码会复用公共 SQL 么？

2 天前

爆笑gif图 · 一场撞衫引发的惨案。。。

8 年前

知道学舍 · 父母的终极使命，是培养出适应社会的孩子

8 年前

中国政府网 · 李克强会上谈到自家冰箱意在这件大事

8 年前

风青杨 · 小时候背那么多诗有什么用？这是我听过的最好的答案

7 年前

家庭祷告室 · 要爱要爱神就是爱一定打开看看!！

7 年前

移动版

51好读 - 微信公众号文章