专栏名称: 极客公园
科技创新者的大本营。汇聚优秀的产品报道、评测视频和高质量的线下活动。
目录
相关文章推荐
新浪科技  ·  【#三大运营商集体讲起AI# ... ·  18 小时前  
36氪  ·  「销冠」罗马仕,被赶出大学 ·  2 天前  
51好读  ›  专栏  ›  极客公园

「人均 DeepSeek」之后,AI 应用还能怎么做?

极客公园  · 公众号  · 科技媒体  · 2025-02-17 13:09

正文

请到「今天看啥」查看全文


第二个猜测,很多人觉得 R1 的强化学习本身增加了它的写作能力,但我对这件事是存疑。我听到的一个信息是,之所以有比较好的表达, 背后是有比较资深的、类似于北大中文系的人在帮忙在写数据。人的自由表达和高质量的数据作为对模型回复的一个引导,来达到好的效果。 我会觉得应该是 SFT 这个部分的数据做得非常好。
第三,R1 以及 V3 的模型如果和行业同类模型相比,它其实把规模差不多涨了 10 倍,差不多从一个几十 G 的规模涨到了几百 G。这个规模下它能够储存的信息容量差不多比上一代 Qwen 涨了十倍,这让它在很多比较细致的表达上能够有更好的还原。也就是说 它的压缩率其实不用做得那么高,能够记住更多东西,包括像诗词、或者开放式的问题上。
总结来说,更大的脑容量、高人撰写的文学性数据作引导和对齐,并且降低了严格的安全对齐(标准),可能是这三点加起来得到了 DeepSeek 的优美深刻的表达。
张鹏:一些在硅谷的华人 AI 研究员也说,可能过去海外的大模型对于高质量中文数据没有特别较真过,但 DeepSeek 较真了。方汉你怎么看「大家说 DeepSeek 文笔好」?
方汉: 虽然我学的是理科,但我高考作文是满分,所以对古文比较熟,我特别喜欢让大模型写古诗词。在这件事上,现在写的最好的模型实际上是 Claude,也就是说 Claude 的文采比 ChatGPT 要好很多。 我觉得还是数据的原因,大家公认 Anthropic 对数据的品位最高,数据做得最好,他们的数据团队规模在语文和写作方面非常强,我猜 DeepSeek 也是类似。
DeepSeek 内部可能有一套方法,可以从现有的数据里面生成质量非常高的语文数据,这是我的猜想。因为请大量顶尖团队比如北大中文系标数据,DeepSeek 未必竞争得过大厂,(靠人工标注数量和质量取胜)逻辑上讲不通。 DeepSee k 在不要人干预的情况下,可以用 GRPO 可以生成数学和编程的 CoT 数据,那这些方法能不能用在语文上去生成高质量的语文数据,这是我更相信的一个推断。
另外,我们在做推理模型的时候有个叫 temperature(温度)的参数,如果把这个参数值设得高,模型就开始胡说八道、特别有创意,但也很容易崩。可能因为 R1 的推理能力很强,哪怕把 temperature 加得比一般模型高,也是比较活跃且不容易崩。

03

「被 DeepSeek 的思考过程震撼到了」

张鹏:除了文笔好,很多用户也被 DeepSeek 思考过程的透明和清晰的逻辑打动,R1 是第一家展示思考过程的模型吗?
吴翼: 完整思维链的透明展示,确实是 DeepSeek 第一个做出来的,但 R1 不是第一次,第一次真正公开所有思维链的模型是去年 11 月 20 日发布的 DeepSeek-R1-Lite。
后来 Gemini 跟进了,也公开了思维链,Gemini 的 Flash thinking 的思维链质量也不错。
其实去年 9 月 OpenAI 发布的 o1 也给了这样的中间步骤,只是它不给你看思维链的完整版,就给你一个总结版。从技术视角上,藏没藏思维链差挺多的。不过总结版的思维链虽然不完整,但也挺有价值的,很多人发现即使是「扒」总结版思维链数据,也能对模型有很多提升。
图片来源:视觉中国
张鹏:你觉得 OpenAI 为什么不给大家公开思维链?
吴翼: 高质量思维链对于模型的能力提升、以及激发模型让它在第二阶段强化学习训练时能有很好的推理表现、继续用强化学习做 Scaling Law 是很重要的。所以 OpenAI 应该在这件事情上花了一些力气,他知道如果真的把思维链给你去 distill(蒸馏),你很快就能做出来,他就是不让你「抄」。
最近李飞飞老师团队做的、被炒得很热的 S1,50 美金能够让你看到 test-time-in-scaling 的效果,也说明了这个道理。它只输了 1000 条 Gemini 的长思维链数据,就能让模型有比较大的推理表现上的质变,当然它效果还比较一般,50 美金不可能真的把 R1 复现。所以高质量的长思维链数据是重要的,这也是 OpenAI 不愿意给你看的原因。
方汉: 我觉得 OpenAI 就是想保守机密,OpenAI 一直认为思维链数据是它最值钱的数据,所以很早就出了一个 term sheet(条款),你要是敢 jail break(越狱)问他 CoT 的问题,他会封你的账号。R1 发布之后,OpenAI 也把 o3-mini 的思维链输出了,但这里是总结版的思维链,结果又被网友骂了,然后现在又正在把总结再去掉。
当然大家没有想到的是 DeepSeek 说,要不我试一下,我也不要中间这个步骤,直接给你强化学习行不行?很长时间大家都觉得中间需要搞一步 SFT,结果 DeepSeek 出来跟你说,我们试了一下,好像不需要也行。
张鹏:因为没有人做出来过,或者没有人按这个方式做出来过。
吴翼: 就是 对面有一家告诉你这个东西特重要,「此地无银三百两」,我家一定没有黄金,你千万别来。那大家都会往这上面花很多精力想,最后 DeepSeek 试出来说,你看你没这玩意也行,哈哈哈,或者说有比较便宜的方法能绕过去。
张鹏:秘塔科技也在第一时间与 DeepSeek-R1 合作做了相关的功能,思考过程的可视化。可锐,从用户的角度,你怎么看这件事带来的影响?展示透明的思维链本身,是不是一种用户价值交付?
闵可锐: 我会觉得思维链,不管是总结版也好,还是像 R1 给到一个相对完整的思维链,最早的出发点可能是通过步骤和步骤之间的推导,提高结果的准确率。
但把它展示出来,我会认为最早是因为中间的等待时长实在太长了。如果 让用户在这无休止地比如像看沙漏一样(等时间),用户体验是非常糟糕的。所以既然有一个中间的推导过程,索性把推导过程显示给用户,但是这似乎带来了一个非常意外的好处。
很多人反而专门去看思维链,「诶,这个模型怎么思考的?它怎么从不同角度去考虑我提的问题」,这对我来说是稍微有点意外的。我观察到很多人其实还挺喜欢看 R1 的思维链,因为模型把思维链写得像是一个内心独白一样。
就像有人问它说,「诶,我有一个朋友怎么怎么样」,然后这个思维链里说,「这个大概率是用户自己想问这个问题」,就是有一种竟然被 AI 看穿的体验。 我觉得这可能也是出乎创造者意料的效果。
DeepSeek 推测,用户说是别人的提问,很可能是用户自己的提问。|截图来源:DeepSeek App
张鹏:方汉,你怎么评价这次 R1 展示的透明的思维链?
方汉: 从纯技术的角度,看思维链可以改进你的 prompt。但对于绝大部分用户,不会这么用思维链。
对于用户来说最可怕的体验是,看到 R1 思维链这么严密的推理过程,有点像我们小时候看卡耐基成功学、有点像听一些特别牛的人把他思维方式给你讲一遍,你是会很震撼的。
现在,你目睹了 AI 用一个聪明人、成功学的方法给你推导一个问题,所有人心里都会心生感叹,「这个 AI 真聪明,接近人类智能呢」。我觉得这 对产品的推广来说,是一个决定性的心理暗示。
张鹏:像这样一个让大家觉得很震撼的思维链,是怎么做出来的?
吴翼: 首先 思维链是涌现出来的,不是人标注出来的,人标不出这样的思维链。 如果你仔细去看 DeepSeek 产生的思维链,很多也是错的,或者说没有任何道理,再比如之前 OpenAI 的思维链里还出现过中文。这些都说明,是由强化学习的 Scaling Law 让思维链涌现出来的。
所以判断一个模型是不是推理模型,只要看它敢不敢放出一个训练曲线——模型输出长度随着强化学习的训练时间在不断变长。如果能看到这个不断变长的曲线,基本上可以认为这个训练是成功的;如果看到它的长度变短了,那应该就失败了,即使它的正确率或者表现在提升,也是失败的。也就是说,这个长度是涌现的,最后推理模型呈现出来的极强的反思,是泛化的结果,是涌现的结果,而不是人标的。
DeepSeek-R1-Zero 的性能轨迹,整个强化学习过程中稳定且持续提升。|截图来源:DeekSeek-R1 技术报告
第二, 需不需要一个东西去激发这个模型的思维链?基本上是需要的。 OpenAI 在训练模型的时候应该还是用了一部分这样的数据去激发基座模型的思维链能力,然后再上强化学习的。
但是我觉得比较神奇的一件事情是,如果你仔细去看 DeepSeek 的技术报告,你会发现即使用比如 Qwen-32B、Qwen-70B,基座模型在没有任何强化学习训练的情况下,通过 prompt 的调整也可以看到它的一些反思过程。也就是说,基模从某种程度上已经有一些自激发能力。
所以这也是 DeepSeek 可以从基模直接进行强化学习的一个重要原因,基模在强化学习开始的时候就存在一定的反思、思维链能力,然后再通过强化学习 Scaling Law 的方式,把反思能力放大,涌现出来最后的 R1 模型。当然也说明 DeepSeek-V3 这个基座模型做得很好,导致它一开始就有了自我激发的能力。
如果这个基座模型,比如说在数学上有一些基座模型有一些反思能力,但在语文上,比如说真的完全没有「诶,等等,我说错了我再想想」这样的表现。再怎么强化学习?也不会涌现出反思能力,如果基座模型很差,没有准备好被激发的话,那也没用。
张鹏:如果没有「等等,我可能想得不对」类似的推理反思能力,再怎么上强化学习,也不会出现思维链的线性发展。
吴翼: 对, 强化学习跟预训练是乘法的关系: 预训练的 scaling 是第一个系数,强化学习后训练是第二个系数,这两个是乘起来的关系。
如果一个维度是 0,怎么乘也没用。但这里哪怕是个 0.01 也没问题,后面帮你乘上去,所以这也说明 V3 的基模真的非常好,所以它能让你做出一些事情来。技术报告里也做了实验,比如说是 7B 的小模型,怎么强化学习也没用,还不如蒸馏。所以强化学习和基模有这样的一个关系。
张鹏:怎么理解 强化学习 在 R1 和 R1-Zero 体现出的效果?
方汉: 打个不太恰当的比方来类比理解,让一个小孩学乒乓球,先让他看所有高手打乒乓球的视频,但他看完了之后仍然不会打。
这时候有两个方法,一是请国家队队员比如马龙来教他,但绝大多数家庭请不起国家队。怎么办呢?这时候请不起国家队的家庭就想了个办法,让人对着一个洞去打球,打不中就「电」你一下。奖惩机制下,终于这个小孩成了一个绝世高手,但是他这时候还不太懂乒乓球的规则,发球也不标准等等。这时候终于又请了一个教练,告诉小孩得按照什么样的规则打球,让他把规则学会,学会了就出去「大杀四方」,这个逻辑大概是这样。
这里其实有一个问题,刚才大家也聊到了, 现在不知道 V3 这个基座模型看没看过高质量的 CoT 数据?但是它后来的激发做得非常成功。 我觉得这给了所有「穷人」一个念想,我靠自己「电」自己,也能把自己「电」成高手。这样的话,很多欧洲、印度的公司也可以开始训练这种高质量模型了。
张鹏:技术圈对于 R1-Zero 的讨论是大于 R1 本身的。






请到「今天看啥」查看全文