专栏名称: DeepTech深科技
“DeepTech深科技”是与麻省理工科技评论官方独家合作的一个新科技内容品牌。我们专注于关注三个方面:1、基于科学的发现;2、真正的科技创新;3、深科技应用的创新。
目录
51好读  ›  专栏  ›  DeepTech深科技

Meta发布Llama 4系列模型,参数高达2万亿

DeepTech深科技  · 公众号  · 科技媒体  · 2025-04-06 08:35

正文

请到「今天看啥」查看全文


同样在 4 月 5 日,拥有 2 万亿参数的大型模型 Llama 4 Behemoth 也发布了预览版,不过 Meta 的博客文章称该模型仍在训练中,并未透露其可能的发布时间。需要注意的是,参数指的是控制模型行为的设置,一般来说参数越多意味着模型在各方面更强大、更复杂。

这些模型的一个主要特点是它们都是多模态的,经过针对文本、视频和图像的训练,因此能够接收和生成这些内容。

另一个特点是它们拥有较长的上下文窗口——Llama 4 Maverick 为 100 万个 tokens,Llama 4 Scout 为 1000 万个 tokens——分别相当于大约 1500 页和 15000 页的文本内容,并且模型在一次输入/输出交互中就能处理这些内容。这意味着理论上用户可以上传或粘贴多达 7500 页的文本内容,并从 Llama 4 Scout 获得同样多的回复,这对于医学、科学、工程、数学、文学等信息密集型领域来说非常实用。

据了解,这三个模型都采用了“专家混合(MoE)”架构方法,这种方法在 OpenAI 和 Mistral 早期发布的模型中得到了推广,本质上是将多个专门处理不同任务、主题和媒体格式的较小模型(即“专家”模型)组合成一个更大的统一模型。据说每个 Llama 4 模型都是 128 个不同专家模型的混合体,并且运行效率更高,因为在处理每个 tokens 时,只需特定任务所需的专家模型加上一个“共享”专家模型,而无需让整个模型对每个 tokens 都进行处理。

虽然所有参数都存储在内存中,但在运行这些模型时,只有总参数的一个子集被激活。这通过降低模型运行成本和延迟提高了推理效率——Llama 4 Maverick 可以在单个英伟达 H100 DGX 主机上运行,不仅便于部署,也可以通过分布式推理实现最高效率。







请到「今天看啥」查看全文