专栏名称: 腾讯科技
只供应最有营养的科技大餐!
目录
相关文章推荐
51好读  ›  专栏  ›  腾讯科技

Claude 4系列模型来了!编码能力强于o3和GPT-4.1,记忆性能大幅提升

腾讯科技  · 公众号  · 科技媒体  · 2025-05-23 08:15

正文

请到「今天看啥」查看全文


不过需要客观看待的是,技术优势具有领域局限性—虽然Claude Opus 4在编程能力测试中同时领先于谷歌的Gemini 2.5 Pro和OpenAI的o3及GPT-4.1,但在衡量多模态理解能力的MMMU评估,以及涉及博士级生物、物理、化学等学科难题的GPQA Diamond测试中,仍未突破OpenAI o3模型保持的领先水平。

这反映出当前AI技术发展呈现明显的专业化分野特征,不同模型在不同应用场景下各有所长。

Claude 4系列模型在Amazon Bedrock及Google Vertex AI平台上的收费标准如下:Opus 4每百万Token(输入/输出)收费为15美元/75美元,Sonnet 4为3美元/15美元。


推理革命重塑人工智能格局

2025年人工智能产业全面转向推理模型开发。这些系统不仅仅是简单匹配训练数据模式,在回应前会系统化处理问题,通过模拟类人思维过程完成思考。

OpenAI于2024年12月通过”o”系列模型率先启动这场变革,随后谷歌推出具备实验性“深度思考”功能的Gemini 2.5 Pro5。 DeepSeek 的R1模型则以卓越问题解决能力和价格优势异军突起,意外抢占市场份额。

此次转型标志着人工智能应用范式的根本性进化。据Poe《2025春季AI模型使用趋势报告》显示,推理模型使用率在4个月内激增5倍,占所有AI交互比例从2%跃升至10%。用户正将人工智能视为复杂问题的思维伙伴,而非基础问答工具。

图片

随着新型AI模型激发用户兴趣,2025年初推理类会话占比急剧攀升

Claude新模型通过将工具使用直接整合至推理过程实现突破。这种同步研究与推理的方式,相较传统系统先收集信息后分析的流程,更接近人类认知模式。在推理过程中暂停、获取数据并整合新发现的机制,创造了更自然高效的问题解决体验。


双模式架构平衡速度与深度







请到「今天看啥」查看全文