正文
同样在 4 月 5 日,拥有 2 万亿参数的大型模型 Llama 4 Behemoth 也发布了预览版,不过 Meta 的博客文章称该模型仍在训练中,并未透露其可能的发布时间。需要注意的是,参数指的是控制模型行为的设置,一般来说参数越多意味着模型在各方面更强大、更复杂。
这些模型的一个主要特点是它们都是多模态的,经过针对文本、视频和图像的训练,因此能够接收和生成这些内容。
另一个特点是它们拥有较长的上下文窗口——Llama 4 Maverick 为 100 万个 tokens,Llama 4 Scout 为 1000 万个 tokens——分别相当于大约 1500 页和 15000 页的文本内容,并且模型在一次输入/输出交互中就能处理这些内容。这意味着理论上用户可以上传或粘贴多达 7500 页的文本内容,并从 Llama 4 Scout 获得同样多的回复,这对于医学、科学、工程、数学、文学等信息密集型领域来说非常实用。
据了解,这三个模型都采用了“专家混合(MoE)”架构方法,这种方法在 OpenAI 和 Mistral 早期发布的模型中得到了推广,本质上是将多个专门处理不同任务、主题和媒体格式的较小模型(即“专家”模型)组合成一个更大的统一模型。据说每个 Llama 4 模型都是 128 个不同专家模型的混合体,并且运行效率更高,因为在处理每个 tokens 时,只需特定任务所需的专家模型加上一个“共享”专家模型,而无需让整个模型对每个 tokens 都进行处理。
虽然所有参数都存储在内存中,但在运行这些模型时,只有总参数的一个子集被激活。这通过降低模型运行成本和延迟提高了推理效率——Llama 4 Maverick 可以在单个英伟达 H100 DGX 主机上运行,不仅便于部署,也可以通过分布式推理实现最高效率。