专栏名称: 极客公园
科技创新者的大本营。汇聚优秀的产品报道、评测视频和高质量的线下活动。
目录
51好读  ›  专栏  ›  极客公园

玩完 DeepSeek R1 新版,外国网友又「蚌埠住了」?

极客公园  · 公众号  · 科技媒体  · 2025-06-01 12:03

正文

请到「今天看啥」查看全文


DeepSeek 还提到,DeepSeek-R1-0528 在前端代码生成、角色扮演等领域的能力均有更新和提升。

R1 的一大优势在于其超长的记忆跨度和语境持久性。AI 角色扮演社区(通常处于 AI 模型测试的边缘,但在对话连贯性方面往往更为严格)有测评称,角色能够记住过去细微的细节,并以自主行为做出回应。

有个角色跟我争论一个观点时,竟然提起过去发生的三个细节 ,」r/SillyTavernAI 上的一位用户说道。「我以前从未见过这种情况。」

该用户还提到:「AI 通常不会主动出击;我训练过一些 AI,让他们在对话中占据主导地位,但这是我第一次看到 AI 从角色扮演场景中走出来。」

在 reddit 社区上,还有一名用户甚至发贴称,更新的 DeepSeek R1 0528 在他的所有测试中都能获得满分。

「过去几周眼花缭乱——OpenAI 4.1、Gemini 2.5、Claude 4——它们都表现优异,但没有一个模型能够在每项测试中都取得满分。DeepSeek R1 05 28 是有史以来第一个做到这一点的模型。」他称。

reddit 社区关于 DeepSeek 更新的帖子|图片来源:reddit

「这些测试并非像 YouTube 上很多人做的那种不切实际的测试。比如草莓里的 rs 数量,或者编写一个贪吃蛇游戏等等。这些是我们在实际商业应用中经常使用的任务,我们从中挑选了一些比较复杂的边缘案例。」该用户如此称。

「我感觉自己就像电影《料理鼠王》里的安东(如果你看过这部电影的话)。我印象深刻(此处双关),但也有点麻木,一时难以找到合适的词来形容。一个来自去年还默默无闻的实验室,做出的免费开源模型,竟然比商业前沿的模型做得更好,这真是太不可思议了。」

和 reddit 社区同样热闹的是 X。

X 上热衷 AI 内容的用户除了转发基准测试的图表,一些人着重提到 DeepSeek 的编程能力。比如,X 上一名用户称试过用 DeepSeek R1-0528 构建游戏,称「它的编程能力简直太强了」「相比之前的版本,改进非常显著」「 如果这只是 R1...DeepSeek R2 将会非常疯狂。

X 上关于 DeepSeek 更新的帖子|图片来源:X

除了用户和开发者声音,在 DeepSeek 发布更新后,人工智能模型分析机构 Artificial Analysis 称, DeepSeek 的 R1 在其独立的「智能指数」上「超越 xAI、Meta 和 Anthropic」

人工智能模型智能指数排行|图片来源:Artificial Analysis

具体模型比较上,该机构在一篇报告中称「DeepSeek R1 的智能程度高于 xAI 的 Grok 3 mini(high)、NVIDIA 的 Llama Nemotron Ultra、Meta 的 Llama 4 Maverick、阿里巴巴的 Qwen 3 253,并与谷歌的 Gemini 2.5 Pro 相当。」

DeepSeek 最大的智力进步出现在 AIME 2024(竞赛数学,+21 分)、LiveCodeBench(代码生成,+15 分)、GPQA Diamond(科学推理,+10 分)和 Humanity's Last Exam(推理与知识,+6 分)

其中在编程方面,该分析机构认为,「R1 在人工分析编码指数中与 Gemini 2.5 Pro 相当,仅落后于 o4-mini(high)和 o3」。

各大厂商人工智能模型智能指数变化|图片来源:Artificial Analysis

至于与 OpenAI 的对比,该机构称「DeepSeek 刚刚证明,他们能够跟上 OpenAI 的 RL 计算能力扩展步伐。」

当然,全是赞美是不可能的。

在编程能力方面,X 上也有用户挑刺道,「如果你真的用它和 Claude 4 写过代码,你就会知道基准测试的描述并不准确。Deepseek 的 API 仍然只有一个 64k 的上下文窗口。它还不错,但不是前沿模型。可能要等到下次吧。它几乎零成本,在某些方面表现不错,但绝对比不上 Claude。」

X 上关于 DeepSeek 更新的帖子|图片来源:X







请到「今天看啥」查看全文