专栏名称: 大数据文摘
普及数据思维,传播数据文化
目录
相关文章推荐
大数据文摘  ·  83% 员工用 AI ... ·  昨天  
数局  ·  解数咨询:2024年保健品行业复盘 ·  3 天前  
51好读  ›  专栏  ›  大数据文摘

OpenAI 姚顺雨:“算法为王”终结,欢迎来到“产品思维”时代

大数据文摘  · 公众号  · 大数据  · 2025-05-04 12:00

正文

请到「今天看啥」查看全文



但现在,这一切真的成真了。


接下来会发生什么? AI的“下半场”。


从现在开始,将把重点 从“解决问题”转向“定义问题” 。在这个新的阶段,如何评估AI能力,比单纯训练模型更加重要。


我们不再只问“我们能不能训练出能解决X问题的模型?”,而是要问“我们究竟应该训练AI去做什么?我们又该如何衡量真正的进步?”想要在下半场脱颖而出,我们不仅要及时调整思维方式和能力结构, 甚至可能需要逐渐向产品经理靠拢。


01 上半场


要理解AI的“上半场”,不妨看看那些真正的赢家。


到目前为止,你认为最具影响力的AI论文有哪些?我做过斯坦福224N课程里的一个小测试,结果其实并不意外:Transformer、AlexNet、GPT-3等等


这些论文有什么共同点? 它们都带来了基础性的突破 ,让我们能训练出更强大的模型。同时,它们之所以能发表,也因为在某些基准测试上取得了显著提升。


但其实还有个更深层的共性:这些“赢家”本质上都是新的训练方法或模型,而不是基准测试或具体任务。哪怕是公认最具影响力的基准数据集ImageNet, 它的引用量还不到AlexNet的三分之一 。而如果你再看看方法和基准之间的对比,这种差距就更加明显了。


以Transformer为例,它的主要基准是WMT’14机器翻译任务。WMT’14的工作坊报告被引用大约1,300次, 而Transformer论文的引用数已经超过16万


这恰好说明了AI“上半场”的玩法:重心始终在于打造新的模型和方法,至于评测和基准测试,虽然必不可少,但始终只是辅助,为论文体系服务。


为什么会这样?很大一个原因在于,在AI发展的上半场,提出新方法本身比设计新任务更难、更令人兴奋。创造一项全新的算法或模型架构,比如反向传播算法、卷积神经网络(AlexNet),或GPT-3背后的Transformer,都需要极高的洞见和工程能力。


相比之下,为AI设计任务通常要简单得多:我们只需把人类已经在做的事情(比如翻译、图像识别、下棋)直接转换成基准测试即可,这里面并没有太多创新或者技术难点。


此外,新方法往往比具体任务更具通用性和适用范围,因此价值更高。比如Transformer架构,最初只是在WMT’14机器翻译数据集上验证,但后来却成为计算机视觉、自然语言处理、强化学习等众多领域的核心动力,远远超出了它最初的应用场景。


一个优秀的新方法可以在许多不同的基准测试上取得突破,因为它本身简洁而通用,其影响力自然也就跨越了单一任务。


这种模式持续了数十年,并不断催生出改变世界的创新和突破,其具体表现就是各个领域基准成绩的不断刷新。那么,这种游戏规则为什么会发生改变?原因在于,所有这些创新和突破的积累,已经让我们在“解决任务”这件事上,获得了质的飞跃和真正可行的“通用配方”。


02 “通用配方”


那么,这套“通用配方”究竟是什么?其实它的核心要素并不意外: 大规模语言预训练、模型和数据的极致扩展,以及“推理+行动”的理念。 乍一听,这些词可能和硅谷每天流行的术语没什么两样,但为什么要称之为“配方”呢?


我们可以从强化学习(RL)的角度来理解。强化学习常被认为是AI的“终极形态”,毕竟,从理论上讲,RL可以保证在各种博弈中取胜;从实际应用看,没有RL也很难想象像AlphaGo这样超越人类的系统会出现。


在强化学习中,核心有三大要素: 算法、环境和先验知识 。长期以来,RL研究者的关注点主要集中在算法本身(比如REINFORCE、DQN、TD-learning、actor-critic、PPO、TRPO等),也就是智能体如何学习的“智慧核心”,而环境和先验知识通常被看作是固定的或者只是最简单的配置。







请到「今天看啥」查看全文