专栏名称: 大模型智能
机器学习算法、深度学习算法、自然语言处理等干货知识集中营
目录
相关文章推荐
青岛新闻网  ·  知名男星公布婚礼照! ·  14 小时前  
青岛新闻网  ·  知名男星公布婚礼照! ·  14 小时前  
扬州广播电视台  ·  “苏超”拉歌赛,太上头了! ·  20 小时前  
扬州广播电视台  ·  “苏超”拉歌赛,太上头了! ·  20 小时前  
爱奇艺行业速递  ·  爱奇艺华语青年说唱真人秀《新说唱2025》6 ... ·  2 天前  
爱奇艺行业速递  ·  爱奇艺华语青年说唱真人秀《新说唱2025》6 ... ·  2 天前  
51好读  ›  专栏  ›  大模型智能

刚刚,新版DeepSeek-R1正式开源!直逼o3编程强到离谱,一手实测来了

大模型智能  · 公众号  ·  · 2025-05-30 07:30

正文

请到「今天看啥」查看全文


  • 文本生成优化:更自然,格式更佳

  • 独特的推理风格:不仅快,而且更缜密

  • 支持长时思考:单任务处理时长可达30-60分钟

  • 图片

    思考时间更长,成为了全网讨论最多的一点。有网友实测后,R1思考时长超过了25分钟。

    图片

    另外,这似乎是唯一一个能持续正确做对「9.9 - 9.11是多少」的模型。

    图片
    编程能力强到爆
    网友实测显示,新版DeepSeek-R1在编程方面简直不可思议!

    AI圈大佬「karminski-牙医」用同一个prompt测试了DeepSeek-R1-0528和Claude 4 Sonnet后发现。

    不管是光线照射在墙上形成的漫反射,还是球在撞击后的运动方向,亦或是控制面板的美观程度,这一把R1稳赢。

    图片
    图片

    网友Alex的测试也显示出,DeepSeek-R1在前端编码的能力上超越了Claude 4 Sonnet。

    图片
    图片
    图片

    网友Haider.则是让模型构建一个单词评分系统。R1简要思考后,就立刻出了关于代码和工作测试的两个文件,第一次运行就完美无瑕。

    图片

    此前,o3是唯一能完成这个任务的模型。而如今,R1堪称是完成这个任务的最佳模型。

    注意,R1的表现之所以如此惊人,是因为它返回的两个文件在第一次都能运行良好,不用编辑,不用重试,这极其少见。

    因为此前的大多数模型,要么会在边缘情况下终端,要么会做得太复杂,要么缺少适当的测试覆盖率。

    图片
    和Gemini高能PK

    还有人将DeepSeek-R1与Gemini 2.5 Pro进行了对标。同一个提示下,它们各自的表现如何?

    图片

    首先是深度研究的能力,给出「研究微剂量服用裸盖菇素对长期认知的影响,需引用学术来源」提示。

    这一把Gemini的响应更快,引用了可靠的研究文献,并且答案结构清晰。

    再来看看它们搜索+对比能力如何?提示模型用实时来源列出全民基本收入(UBI)的五大优点和缺点。







    请到「今天看啥」查看全文