我的理解也一样，需要先有1的随机 //@夜听春雨细分茶:是说1+-20250616191051

黄建同学 · 微博 · AI · 2025-06-16 19:10

正文

我的理解也一样，需要先有1的随机 // @夜听春雨细分茶 :是说1+2一起配合才能达到这个效果？// @马少平THU :图很赞。有个问题没看明白：2. 将除了 top K 的 logits 全部设为 -∞，softmax 之后它们的概率为 0。这样为啥其他专家也能得到训练？概率都为0了。

（来自Avi）Transformer 与专家混合模型（Mixture of Experts, MoE）在大语言模型（LLM）中的对比：

推荐文章

宝玉xp · 能把几千字高密度文字很轻松的阅读，靠的不可能是阅读能力，而是这里-20250616224550

21 小时前

AI产品阿颖 · 我感受到了程序员的新红利。

昨天

爱可可-爱生活 · 《爱可可微博热门分享(6.15)》爱可可微博热门分享(6.1-20250615225610

昨天

爱可可-爱生活 · 【[46星]LeRobot Sim2Real：用强化学习在模拟环-20250615142207

2 天前

宝玉xp · 在这个借助 AI “Vibe Coding”的时代，我们更应追求-20250615140556

2 天前

爆笑gif图 · 史上最幸运的一摔，吓出一身冷汗

8 年前

半岛晨报 · 这辈子都舍不得删掉的聊天记录，看完泪奔

8 年前

蓝橡树 · 一位老师彪悍的比喻: 班主任就是包工头（深度好文）

8 年前

ZOL中关村在线 · 锤子新机坚果Pro抢先看：火枪海报确认双摄

8 年前

腾讯科技 · 百度扔下原子弹炸掉全球无人驾驶数百亿美金研发投入

8 年前

移动版

51好读 - 微信公众号文章