专栏名称: 卢松松
这才是正牌卢松松的公众号,每天推送有技术含量的文章,没事来看看。
目录
相关文章推荐
社会学理论大缸  ·  做中国研究,如何找到国际前沿选题?三种方法| ... ·  3 小时前  
募格学术  ·  “双院士”挂帅!985,迎来新校长 ·  3 小时前  
PaperWeekly  ·  建议所有博士都去学一遍,赢麻了! ·  2 天前  
社会学理论大缸  ·  2025高考落幕:考上清北的学生,靠的是天赋 ... ·  2 天前  
51好读  ›  专栏  ›  卢松松

全面超越Deepseek,阿里大年初一放大招

卢松松  · 公众号  ·  · 2025-01-30 12:00

正文

请到「今天看啥」查看全文


在Moe架构领域,Qwen是规模最大的那一个,又有20万亿Tokens(相当于1.5亿本小说)。为什么DeepSeek能火爆全网、气死扎克伯格,而Qwen不能?于是阿里的工程师加班加点,甚至把车票都退了,终于在大年初一,发布了新的模型Qwen2.5-Max。注意是:Max版,就和手机一样,就是 顶配版 的意思。

Qwen2.5-Max一发布,高级算法专家林俊旸就发了个圈:
Qwen2.5-Max这个版本最牛逼的2点是:
(1)超大规模的MoE模型,预训练数据超20万亿Tokens。
(2)全面超越DeepSeek V3
简单的说,就是 性能更牛了,但更节约算力了。






请到「今天看啥」查看全文