正文
它还是沿用了初代 R1 的混合专家(MoE)架构,总参数量高达 6850 亿,但每次推理仅激活约 370 亿参数,确保高效计算。同时,它支持 128K tokens 的长上下文窗口,使其在长文本理解、代码分析和复杂逻辑推理任务中同样表现出色。
此次升级的关键在于训练后优化,DeepSeek 团队通过改进推理策略和计算资源分配,使模型在数学推导、代码生成和复杂问题解决方面的能力大幅提升。
LMArena 最新测试结果在社交平台上引发了诸多讨论。
在 X 上,有 ID 名为 Sughu 的用户表示,DeepSeek 与 Claude Opus 4 匹敌。这些数字令人难以置信。
还有用户已经摩拳擦掌,迫不及待想试试 R1(0528)实际使用效果怎么样了。
还有用户拿 R1 的开源特性调侃 Opus 等封闭模型。
“区别在于:Opus 让你变穷,但 R1 是免费的。”
也有用户认为,DeepSeek R1 目前在测试中显现出来的性能表现的确是让人印象深刻,但它也有一些地方不及 Claude,比如在用户体验方面还有待提升。
“DeepSeek R1 目前在 WebDev Arena 性能上与 Claude Opus 匹敌,鉴于 Claude 长期以来作为代码型 AI 基准的地位,这是一个值得注意的里程碑。
这标志着开源人工智能的关键时刻。DeepSeek R1 在完全开放的 MIT 许可证下提供了前沿级别的能力,表明开放模型如今已能够与最优秀的专有系统相媲美。虽然这一突破在 Web 开发领域最为显著,但其影响可能会扩展到更广泛的编码领域。
然而,原始性能并不能定义其实际效用。DeepSeek R1 在技术能力上或许能与 Claude 匹敌,但它在用户体验方面仍远不及 Claude,而正是这种体验让 Claude 在日常工作流程中如此高效。”
在 Reddit 平台上,一些用户同样对 DeepSeek R1(0528)强大的编码能力表示赞扬,甚至觉得使用 R1 辅助编程的开发者能碾压用其他封闭模型的开发者。
“DeepSeek R1(0528)很火。我知道这是 LMAarena 的测试(可能会有点不那么准确),但我绝对相信 R1 的实力有能力做到如此。我觉得它用在编程上,它的性能确实能与 Gemini/OpenAI 和 Anthropic 的模型匹敌。一个能用 DeepSeek 的程序员会碾压使用封闭模型的普通程序。”
但也有用户对 WebDev Arena 测试的结果表示了怀疑,认为 DeepSeek 的确很强大,但在 WebDev 中与 Opus 比肩,还是不太相信。
“他们(LMArena)有没有修改评级流程或模型?DeepSeek 很棒,但在 WebDev 领域能和 Opus 比肩吗?不可能的!”
其实也不怪网友质疑 LMArena 的测试结果,因为前不久,AI 实验室 Cohere、斯坦福大学、麻省理工学院和 Ai2 也联合发表了一篇新论文,指责 LMArena 在榜单分数上偏袒一些科技巨头公司。