靠性价比狙击OpenAI！谷歌上线Gemini 2.5 Flash，关闭“思考”成本可降600%

大数据文摘 · 公众号 · 大数据 · 2025-04-19 12:00

正文

请到「今天看啥」查看全文

Gemini 2.5 Flash会根据具体任务的复杂性智能计算出要使用多少思考预算，如果开发者想在保持最低成本和延迟的同时，仍能提升2.0 Flash的性能，可为思考阶段设置特定的预算，预算范围为0到24576个token，随着思考预算的增加，推理质量得到提高，让开发者灵活掌握对质量和成本的细粒度调整。

在一些关键基准测试中，Gemini 2.5 Flash展现出颇具竞争力的性能优势，同时保持了比其他同类产品更小的模型规模。

例如在“人类的最后考试”（高难度推理与通用智力测试）中，Gemini 2.5 Flash的得分为12.1%，优于Anthropic的Claude 3.7 Sonnet（8.9%）和DeepSeek R1（8.6%），略低于OpenAI刚推出的o4-mini（14.3%）。

在GPQA Diamond（研究生水平的专家推理测试）中，Gemini 2.5 Flash得分78.3%，高于DeepSeek R1（71.5%），和Claude 3.7 Sonnet旗鼓相当。

在LiveCodeBench V5评测中，Gemini 2.5 Flash代码相关能力与上代2.0版本相比实现了翻倍提升，接近DeepSeek R1的水平。

谷歌AI Studio负责人Logan Kilpatrick表示该模型编码进展超快，后续还有更多精彩升级推出。

今天，除了发布Gemini 2.5 Flash之外，谷歌还宣布所有美国大学生在2026年春季之前都可以免费使用Gemini Advanced，分析师将此举解读为谷歌正在努力提高未来AI人才对Gemini平台的忠诚度，目光已经着眼渗透下一代市场。

不是最强，但便宜好用

一些网友对Gemini 2.5 Flash测试后认为，Flash的持续迭代可能会是AI行业的全新转折点——模型将会变得快速、智能、价格实惠，如果谷歌继续保持这种性价比竞争势头，接下来的人工智能竞赛将会变得更加有趣。

除了能胜任常见的旋转框弹跳小球的测试，该模型甚至还帮用户完成了更复杂的编码挑战。