玩完 DeepSeek R1 新版，外国网友又「蚌埠住了」？

极客公园 · 公众号 · 科技媒体 · 2025-06-01 12:03

正文

请到「今天看啥」查看全文

DeepSeek 还提到，DeepSeek-R1-0528 在前端代码生成、角色扮演等领域的能力均有更新和提升。

R1 的一大优势在于其超长的记忆跨度和语境持久性。AI 角色扮演社区（通常处于 AI 模型测试的边缘，但在对话连贯性方面往往更为严格）有测评称，角色能够记住过去细微的细节，并以自主行为做出回应。

「 有个角色跟我争论一个观点时，竟然提起过去发生的三个细节 ，」r/SillyTavernAI 上的一位用户说道。「我以前从未见过这种情况。」

该用户还提到：「AI 通常不会主动出击；我训练过一些 AI，让他们在对话中占据主导地位，但这是我第一次看到 AI 从角色扮演场景中走出来。」

在 reddit 社区上，还有一名用户甚至发贴称，更新的 DeepSeek R1 0528 在他的所有测试中都能获得满分。

「过去几周眼花缭乱——OpenAI 4.1、Gemini 2.5、Claude 4——它们都表现优异，但没有一个模型能够在每项测试中都取得满分。DeepSeek R1 05 28 是有史以来第一个做到这一点的模型。」他称。

reddit 社区关于 DeepSeek 更新的帖子｜图片来源：reddit

「这些测试并非像 YouTube 上很多人做的那种不切实际的测试。比如草莓里的 rs 数量，或者编写一个贪吃蛇游戏等等。这些是我们在实际商业应用中经常使用的任务，我们从中挑选了一些比较复杂的边缘案例。」该用户如此称。

「我感觉自己就像电影《料理鼠王》里的安东（如果你看过这部电影的话）。我印象深刻（此处双关），但也有点麻木，一时难以找到合适的词来形容。一个来自去年还默默无闻的实验室，做出的免费开源模型，竟然比商业前沿的模型做得更好，这真是太不可思议了。」

和 reddit 社区同样热闹的是 X。

X 上热衷 AI 内容的用户除了转发基准测试的图表，一些人着重提到 DeepSeek 的编程能力。比如，X 上一名用户称试过用 DeepSeek R1-0528 构建游戏，称「它的编程能力简直太强了」「相比之前的版本，改进非常显著」「 如果这只是 R1...DeepSeek R2 将会非常疯狂。 」

X 上关于 DeepSeek 更新的帖子｜图片来源：X

除了用户和开发者声音，在 DeepSeek 发布更新后，人工智能模型分析机构 Artificial Analysis 称， DeepSeek 的 R1 在其独立的「智能指数」上「超越 xAI、Meta 和 Anthropic」 。

人工智能模型智能指数排行｜图片来源：Artificial Analysis

具体模型比较上，该机构在一篇报告中称「DeepSeek R1 的智能程度高于 xAI 的 Grok 3 mini（high）、NVIDIA 的 Llama Nemotron Ultra、Meta 的 Llama 4 Maverick、阿里巴巴的 Qwen 3 253，并与谷歌的 Gemini 2.5 Pro 相当。」

DeepSeek 最大的智力进步出现在 AIME 2024（竞赛数学，+21 分）、LiveCodeBench（代码生成，+15 分）、GPQA Diamond（科学推理，+10 分）和 Humanity's Last Exam（推理与知识，+6 分）

其中在编程方面，该分析机构认为，「R1 在人工分析编码指数中与 Gemini 2.5 Pro 相当，仅落后于 o4-mini（high）和 o3」。

各大厂商人工智能模型智能指数变化｜图片来源：Artificial Analysis

至于与 OpenAI 的对比，该机构称「DeepSeek 刚刚证明，他们能够跟上 OpenAI 的 RL 计算能力扩展步伐。」

当然，全是赞美是不可能的。

在编程能力方面，X 上也有用户挑刺道，「如果你真的用它和 Claude 4 写过代码，你就会知道基准测试的描述并不准确。Deepseek 的 API 仍然只有一个 64k 的上下文窗口。它还不错，但不是前沿模型。可能要等到下次吧。它几乎零成本，在某些方面表现不错，但绝对比不上 Claude。」

X 上关于 DeepSeek 更新的帖子｜图片来源：X