正文
Gemini 2.5 Flash会根据具体任务的复杂性智能计算出要使用多少思考预算,如果开发者想在保持最低成本和延迟的同时,仍能提升2.0 Flash的性能,可为思考阶段设置特定的预算,预算范围为0到24576个token,随着思考预算的增加,推理质量得到提高,让开发者灵活掌握对质量和成本的细粒度调整。
在一些关键基准测试中,Gemini 2.5 Flash展现出颇具竞争力的性能优势,同时保持了比其他同类产品更小的模型规模。
例如在“人类的最后考试”(高难度推理与通用智力测试)中,Gemini 2.5 Flash的得分为12.1%,优于Anthropic的Claude 3.7 Sonnet(8.9%)和DeepSeek R1(8.6%),略低于OpenAI刚推出的o4-mini(14.3%)。
在GPQA Diamond(研究生水平的专家推理测试)中,Gemini 2.5 Flash得分78.3%,高于DeepSeek R1(71.5%),和Claude 3.7 Sonnet旗鼓相当。
在LiveCodeBench V5评测中,Gemini 2.5 Flash代码相关能力与上代2.0版本相比实现了翻倍提升,接近DeepSeek R1的水平。
谷歌AI Studio负责人Logan Kilpatrick表示该模型编码进展超快,后续还有更多精彩升级推出。
今天,除了发布Gemini 2.5 Flash之外,谷歌还宣布所有美国大学生在2026年春季之前都可以免费使用Gemini Advanced,分析师将此举解读为谷歌正在努力提高未来AI人才对Gemini平台的忠诚度,目光已经着眼渗透下一代市场。
一些网友对Gemini 2.5 Flash测试后认为,Flash的持续迭代可能会是AI行业的全新转折点——模型将会变得快速、智能、价格实惠,如果谷歌继续保持这种性价比竞争势头,接下来的人工智能竞赛将会变得更加有趣。
除了能胜任常见的旋转框弹跳小球的测试,该模型甚至还帮用户完成了更复杂的编码挑战。