专栏名称: 腾讯科技
只供应最有营养的科技大餐!
目录
51好读  ›  专栏  ›  腾讯科技

奥特曼种的草莓“熟”了,但它又贵又难吃?

腾讯科技  · 公众号  · 科技媒体  · 2024-09-14 11:48

主要观点总结

本文介绍了OpenAI新发布的大型语言模型OpenAI o1的关键信息,包括其技术特点、名称由来、应用领域等。文章指出,OpenAI o1在复杂推理任务上取得了重大进步,代表着人工智能能力的新水平。同时,该模型在数学、编程、物理等领域有出色表现,但其他领域的应用仍有限。文章还讨论了OpenAI o1相较于之前模型的不同之处,以及对于未来的展望。

关键观点总结

关键观点1: OpenAI o1的技术特点

OpenAI o1采用了自我对弈型强化学习(SelfPlay RL)技术,通过内化的思维链(COT)、纠错和尝试不同途径的能力,显著提升了模型的推理能力。它使用了带有思维链能力的PRM(Process reward model)来提升模型的推理能力,但在某些领域的应用仍有限。

关键观点2: OpenAI o1的名称由来

OpenAI o1的名称中的“o”可能代表“Orion”,即OpenAI计划成为GPT-4继任者的模型。而“1”则代表这是一个重大进步,代表着人工智能能力的新水平。

关键观点3: OpenAI o1的应用领域

OpenAI o1在编程和数学领域有出色的表现,尤其在解决有固定答案的推演问题上非常擅长。它在物理、化学和基准测试中的准确度超过了人类博士水平。然而,它在其他领域,尤其是那些缺乏通用思维链的领域,提升有限。

关键观点4: OpenAI o1的挑战和未来展望

尽管OpenAI o1在某些领域取得了显著进展,但它仍然面临一些挑战,如成本高昂、推理时间延长等问题。未来,随着技术的不断发展,OpenAI o1可能会带来更多变革,尤其在结合更多领域的训练和推理方面。然而,对于真正的AGI(人工智能通用智能)的实现,还有很长的路要走。


正文

请到「今天看啥」查看全文


从中我们可以一窥o1可能的架构和逻辑。

在这篇论文中谷歌详细解释了一种 PRM(Process reward model 过程奖励模型)作为和LLM(大语言模型)对弈的对手,它的推理模式和其效果。

PRM是在思维链的过程中给出奖励(打分)的模型,过程奖励模型。

它是一个单独被训练出来的模型,它拥有两个能力,一个是将问题拆成一步一步的思维链的能力;另一个是对大模型生成的每一步进行打分,并在结果不够理想时让大模型重新生成结果。它不仅可以评判每一个具体回答的优与劣,也可以评判在整个思维链过程中最佳的流程。

(绿的就是PRM觉得好的,红的就是觉得不行的)

它在与大模型的互动中,通过让大模型搜索多个可能的答案,在推理过程中的整体逻辑和每一步上都选择最佳的答案。这就让推理的准确性得到大幅提升。

(LLM与PRM进行对弈的流程示意图)

这一过程与OpenAI在“推理模型”中显示的多步循环对弈的形式也基本一致。在这张图里,模型在给出最终回答之前会进行三轮推理,并把前一轮的推理作为Input(输入)再给到下一轮。如果把它想象成思维链,这个输入就是对前一个步骤的对弈结果的总结。它最终输出的是一个简短的版本。

(OpenAI官网推理模型的多轮对弈模式)

在这个过程中,PRM让LLM 去搜索最佳答案的方法也不同。

Google在研究中提到了从简单到复杂的三种方案,直接在多个答案中选最佳解的方法(Best of N),在思维链中每步都提供多个候选项的方法(Beam Search)和把后续多个步骤联系起来看的MCTS方法(蒙特卡洛树状搜索算法)的简化版本Lookahead Search。

那OpenAI最有可能选择的搜索模式是什么呢?
我们从反应时间和token消耗两方面看,根据Hackernews上一名使用了API的开发者的推算,OpenAI o1进行推理所消耗的token数量是其给出答案token的10倍。但可能会达到未进行思维链的GPT-4o mini 所用token数的60-100倍。
而如果采用能看三步的、每步形成5个候选选项情况下,单层深度的Lookahead Search就会消耗45倍的token。但用到了思维链每个步骤都需要进行一次Lookahead Search的话,100倍的token是根本打不住的。因此OpenAI o1所用的选择方法肯定不是MCTS形式的。另外考虑到这么MCTS这么大的计算量,目前o1的反馈时间是远远不够的。

但OpenAI o1也不可能是单纯的仅给出单个答案的思维链判断。仅用思维链,对于非常复杂的问题,token消耗最多也就是达到5-10倍。其60倍token消耗又太大了。因此可能有两种情况,一是PRM仅在答案不可接受或者低分太低时拓展进行MCTS式的搜索。或者它用的是更节约的Beam Search的方法搜索可能答案。但具体其结构,还有等到有更多OpenAI相关剧透才能认定。

这就是我们目前猜测的OpenAI o1的可能的技术架构。

对于OpenAI是否是训练了一个同时能做到思维链和判定的模型,而非一个PRM+LMM的模型组合这点。这其实并无必要。

首先,无论如何该模型都需要扮演两个角色(生成者和裁判)来完成强化学习的过程。而从性价比来讲,训练一个单独的PRM显然比训练一个GPT-4o大小的模型要节约的多。在谷歌的论文中,他们采用的是Palm 2-s这个最小的Palm 2模型进行的训练。

虽然谷歌的文章是在8月份发布的,但关于PRM的早期探索,实际上还是要回归到OpenAI。早在2023年5月,Illya和其团队就已经思考出了PRM,并发明出了这一结合思维链及监督者为一体的强化学习方法。

范式转变的种子,可能从那个时期就留下了。反思近期Illya在采访中提到的”每个人都在说“Scaling up”,但每个人都忽略了一个问题:我们在Scaling什么?可能就是意指这个从预训练到 推理 Scaling up的转变。

但目前OpenAI o1的效果很难说得上惊艳,虽然在很多复杂问题上能表现的超越GPT-4o,但仍然会在9.11和9.8谁大这样的问题上犯错误,会出现比较严重的思维链离题幻觉。

所以即使是OpenAI,经过一年多时间的尝试,其结果也不过如此。想走这条路,确实不太容易。



OpenAI o1更贵了吗?








请到「今天看啥」查看全文