吴恩达最新 Ark Invest 洞察：AI 基础模型竞争激烈，训练成本每年下降75%，推理下降86...

投资银行在线 · 公众号 · 科技投资 · 2024-08-10 13:41

正文

请到「今天看啥」查看全文

Brett Winton

是的，我们的基本观点是，不仅成本在下降，还有大量投资资金涌入，因此你将成本下降和投资资金相结合，最终在两到三年内预期能力提升一百倍甚至一千倍。

你认同像 John Locond 所说的那样，系统在运行时会有一定的错误率，即使是 Agent Systems ，这个错误率会随着时间的推移而累积，实际上你正在处理的工作流程越长，生产力就越会受到影响，因为错误在累积。

你认为在当前的架构下，这个问题是可以克服的吗？还是我们需要新的架构来让 Agentic Workflow 真正稳定地工作？

Andrew Ng

如果你在做开放式工作流，那么是的，每一步都需要完美无缺，但是一旦你实现了 Agentic Workflow ，你就可以回顾步骤并修复错误，那么累积问题就会大大改善。举个例子，我曾经设定了一个非常简单的 Agent 来进行在线研究，它的任务是撰写一份报告。

我记得我在斯坦福大学做现场演示时，由于某些原因，那个时候调用的网络搜索失败了，我当时心想“糟糕，演示要失败了”，但出乎我意料的是， Agent 说“网络搜索失败了，让我用维基百科搜索代替吧”，而我完全忘了我还给它设置了维基百科搜索的备用方案。所以， Agent 在面对失败时能够自主切换到备用方案，演示仍然成功了。

Agentic Workflow 虽然不是魔法，也会犯错，但它们有能力在出错时回顾并修复，这使得系统更加稳健。我不想过分类比 AI 和人类，它们有很大不同，但就像人类一样，我们在做事情时第一次可能不会成功，但我们有反思和修复的能力，这使得人类在执行任务时更加稳健。AI Agent 也能够做到这一点。

Brett Winton

你认为要实现真正的 Agentic Workflow ，我们是否需要一个像 Transformer 那样的架构级别的改进？还是说可能通过有效结合现有的工具，比如 LLM，加上强化学习，甚至可能再加上扩散模型，已经足够了？你觉得目前这些工具能帮助我们实现这一目标吗？

Andrew Ng

Agentic Workflow 在现有的 Transformer 模型下已经工作得很好了。我知道有研究人员在探索 Transformer 替代模型，这些模型很有前景，值得进一步研究和测试。虽然拥有更好的模型会很棒，但我并不认为这是绝对必要的。

然而，有一个方面被低估了，那就是快速推理和快速生成控制的能力。直到最近，很多大公司都在花费巨额预算购买 GPU 用于训练，这很好，因为它为我们带来了大规模的基础模型，包括专有和开源的模型。

但我发现，快速推理的能力正成为许多应用的瓶颈。当 Meta 发布 Llama 3 70B 模型时，这是一个非常出色的开源模型，如果我们能将推理速度提高 10 倍，我们就能让这些 Agentic Workflow 运行得更快。

对于人类来说，阅读速度大约是每秒 6 个 token ，所以你不需要生成比每秒 6 个 token 更快的内容。但对于 Agentic Workflow 和 AI ，可能需要草拟草稿并修复错误，这意味着它需要生成大量的 token ，可能需要在人工干预之前完成大量工作。

有时， Agentic Workflow 可能需要花费 25 分钟的时间来处理工作，如果我们能将这 25 分钟的处理时间压缩到2分钟，这将是一个改变游戏规则的突破。

这会显著改变客户体验，从20到25分钟缩短到1到2分钟，因此在快速生成 token 方面还有很多工作要做，这将有助于推动下一波 AI 的应用。

Brett Winton

这些工作与训练密切相关，对吧？AI 推理和训练中的一个有趣动态是，如果我在系统上投入更多的训练资金，像 Meta 正在做的那样，我可以将更多的信息压缩到一个更小的参数模型中，从而可以更快、更便宜地运行。

这使得性能提升和成本下降同时发生，这就是一个有趣的动态，这取决于你在训练计算上投入了多少资金。

Andrew Ng

是的，这些都会有所帮助。即使你使用一个大型模型，比如一些商用网站上的 LLM 可能每秒生成 10 个 token 左右，这个速度已经非常快了。

我们大多数人每秒阅读大约 6 个 token ，所以每秒 6～10 个 token 的速度已经足够了。虽然模型不同，但我们可以生成更多的 token ，而且有些公司也在生成每秒数百个 token 的内容。还有一些公司在私下里分享说，他们也在开发便宜且超快的 token 生成技术。

这些公司的工作将解锁许多新的能力，而这种超快的 token 生成技术，每秒超过100个 token 对于大模型来说是非常重要的，这让我们能够做出非常复杂的事情。我实际上很高兴看到更多的半导体制造商认真对待推理，因为推理现在是很多应用的瓶颈。

另一个有趣的现象是，一些大公司完全合理地投资了 GPU 基础设施用于训练，他们拥有非常出色的 GPU 团队，建立了卓越的训练基础设施，然而，这些团队也倾向于说“我们已经建立了最佳的训练基础设施，那么我们也来建立推理基础设施吧”，因为他们在训练方面做得很好，所以自然就去做推理了。

但是，我们现在应该认真思考，训练和推理基础设施是否应该是同一套基础设施？还是说它们之间有足够的差异，甚至需要新的架构？这是一个值得讨论的问题。

Brett Winton

当然，如果是在终端设备上，它们肯定是不同的，对吧？例如，如果我要在特斯拉车辆中安装芯片，这就是完全不同的架构栈了。你可以辩称，从消费者的实用性角度来看，有很多令人信服的理由说明为什么有些甚至大部分的处理应该转移到终端设备上。