正文
这场争夺战的出现,却引出了另外一个角度的话题:当前的人工智能基准测试方法可能大大简化了模型评估。
就比如一周前,当研究人员控制了响应格式和长度等表面因素时,Gemini-Exp-1114 的表现下降到第四位,因为传统指标可能会夸大感知能力。
这种差异揭示了人工智能评估中的一个根本问题:模型可以通过优化表面特征而不是展示推理或可靠性的真正改进来获得高分。对定量基准的关注引发了一场争夺更高分数的竞赛,行业对排行榜的依赖也会催生一些不良激励方式,而这些都无关于人工智能的真正进步。
各个厂商针对特定测试场景优化模型,同时可能忽略安全性、可靠性和实用性等更广泛的问题。这种方法产生的 AI 系统擅长完成狭隘的预定任务,但在处理细微的现实世界互动时却举步维艰。
比如有人就发现在 LiveBench 上,一周后更新的 Gemini-Exp-1121 版本,在数学和推理能力上反而比不上 Gemini-Exp-1114,令人疑惑。
厂商之间为获得更高的基准分数而展开的竞争并不会停止,但真正的竞争可能在于如何开发全新的框架来评估和确保人工智能系统的安全性和可靠性。
谷歌和 OpenAI 不仅在大模型领域有点针锋相对,在浏览器方面,OpenAI 正在加紧追赶。
当谷歌 Chrome 浏览器深陷反垄断之际,OpenAI 出手了。
据《Information》周四报道,OpenAI 最近考虑开发一款可与其 ChatGPT 聊天机器人集成的 web 浏览器,并推出了 NLWeb(Natural Language Web)搜索技术,以增强对旅游、食品、房地产和零售等行业的搜索。
报道还称,OpenAI 已与 Conde Nast、Redfin、Eventbrite 和 Priceline 等网站和应用程序开发商讨论过这款搜索产品。
据知情人士透漏,为了达到这一目标,OpenAI 聘请了谷歌 Chrome 团队创始成员 Ben Goodger 以及其他前 Chrome 关键开发人员进行研发,展现了 OpenAI 对开发浏览器浓厚的兴趣。
领英资料显示,此前 Ben Goodger 是 Chrome 团队的创始成员,今年 6 月加入 OpenAI
这一系列举措可能会让 OpenAI 与占据浏览器和搜索市场最大份额的谷歌展开竞争。此前,OpenAI 已经通过 SearchGPT 进入搜索市场。
报道还称,OpenAI 讨论了为三星制造的设备提供人工智能功能,而三星是谷歌的主要商业合作伙伴。