专栏名称: DeepTech深科技

“DeepTech深科技”是与麻省理工科技评论官方独家合作的一个新科技内容品牌。我们专注于关注三个方面：1、基于科学的发现；2、真正的科技创新；3、深科技应用的创新。

Meta发布Llama 4系列模型，参数高达2万亿

DeepTech深科技 · 公众号 · 科技媒体 · 2025-04-06 08:35

正文

请到「今天看啥」查看全文

同样在 4 月 5 日，拥有 2 万亿参数的大型模型 Llama 4 Behemoth 也发布了预览版，不过 Meta 的博客文章称该模型仍在训练中，并未透露其可能的发布时间。需要注意的是，参数指的是控制模型行为的设置，一般来说参数越多意味着模型在各方面更强大、更复杂。

这些模型的一个主要特点是它们都是多模态的，经过针对文本、视频和图像的训练，因此能够接收和生成这些内容。

另一个特点是它们拥有较长的上下文窗口——Llama 4 Maverick 为 100 万个 tokens，Llama 4 Scout 为 1000 万个 tokens——分别相当于大约 1500 页和 15000 页的文本内容，并且模型在一次输入/输出交互中就能处理这些内容。这意味着理论上用户可以上传或粘贴多达 7500 页的文本内容，并从 Llama 4 Scout 获得同样多的回复，这对于医学、科学、工程、数学、文学等信息密集型领域来说非常实用。

据了解，这三个模型都采用了“专家混合（MoE）”架构方法，这种方法在 OpenAI 和 Mistral 早期发布的模型中得到了推广，本质上是将多个专门处理不同任务、主题和媒体格式的较小模型（即“专家”模型）组合成一个更大的统一模型。据说每个 Llama 4 模型都是 128 个不同专家模型的混合体，并且运行效率更高，因为在处理每个 tokens 时，只需特定任务所需的专家模型加上一个“共享”专家模型，而无需让整个模型对每个 tokens 都进行处理。

虽然所有参数都存储在内存中，但在运行这些模型时，只有总参数的一个子集被激活。这通过降低模型运行成本和延迟提高了推理效率——Llama 4 Maverick 可以在单个英伟达 H100 DGX 主机上运行，不仅便于部署，也可以通过分布式推理实现最高效率。