我的理解也一样,需要先有1的随机 //
@夜听春雨细分茶
:是说1+2一起配合才能达到这个效果?//
@马少平THU
:图很赞。有个问题没看明白:2. 将除了 top K 的 logits 全部设为 -∞,softmax 之后它们的概率为 0。这样为啥其他专家也能得到训练?概率都为0了。
(来自Avi)Transformer 与专家混合模型(Mixture of Experts, MoE)在大语言模型(LLM)中的对比: