专栏名称: 黄建同学
数码博主 超话主持人(ChatGPT超话) 头条文章作者 我的学习笔记,关注AI+新能源
目录
相关文章推荐
AI产品阿颖  ·  我感受到了程序员的新红利。 ·  昨天  
爱可可-爱生活  ·  《爱可可微博热门分享(6.15)》 ... ·  昨天  
爱可可-爱生活  ·  【[46星]LeRobot ... ·  2 天前  
宝玉xp  ·  在这个借助 AI “Vibe ... ·  2 天前  
51好读  ›  专栏  ›  黄建同学

我的理解也一样,需要先有1的随机 //@夜听春雨细分茶:是说1+-20250616191051

黄建同学  · 微博  · AI  · 2025-06-16 19:10

正文

请到「今天看啥」查看全文


我的理解也一样,需要先有1的随机 // @夜听春雨细分茶 :是说1+2一起配合才能达到这个效果?// @马少平THU :图很赞。有个问题没看明白:2. 将除了 top K 的 logits 全部设为 -∞,softmax 之后它们的概率为 0。这样为啥其他专家也能得到训练?概率都为0了。
(来自Avi)Transformer 与专家混合模型(Mixture of Experts, MoE)在大语言模型(LLM)中的对比:






请到「今天看啥」查看全文