主要观点总结
全球最大 AI 开源社区 Hugging Face 的 CEO Clément Delangue 发布了一条关于 DeepSeek 的帖子,引发了大家的猜测。网友纷纷猜测 DeepSeek R2 版本即将发布,且有泄露信息流出。另外,阿里旗下的 Qwen Chat 应用也在海外部分地区上线,可能预示着 Qwen 3 的发布。但 DeepSeek 和 Qwen 官方均未回应相关传闻。
关键观点总结
关键观点1: DeepSeek R2 版本即将发布
CEO Clément Delangue 发布关于 DeepSeek 的帖子并附上相关链接和表情符号,引发了网友的猜测。同时有泄露信息流出,包括参数数量、成本、训练数据量等。
关键观点2: DeepSeek R2 版本的相关特性
泄露信息显示 DeepSeek R2 版本拥有大量参数,采用混合 MoE 架构,成本比GPT-4o便宜,拥有较高的训练数据和测试得分,视觉能力更强等特性。
关键观点3: 阿里旗下的 Qwen Chat 应用在海外上线
阿里旗下的 Qwen Chat 应用在海外部分地区上线,支持 iOS 和 Android 用户。许多网友猜测这可能是为了 Qwen 3 的发布做铺垫。
关键观点4: DeepSeek 和 Qwen 官方未回应相关传闻
截至目前,DeepSeek 和 Qwen 官方均未对相关传闻作出回应。
正文
而在今日凌晨,关于 DeepSeek R2 的泄露信息也在 X 平台上遭到病毒式传播,泄露内容包括:
1️⃣ 拥有 1.2 万亿参数,活跃参数为 780 亿,采用混合 MoE 架构
2️⃣ 成本比 GPT-4o 便宜 97.3%(输入每百万次 0.07 美元,输出每百万次 0.27 美元)
3️⃣ 使用了 5.2PB 的训练数据,在 C-Eval2.0 测试中取得了 89.7% 的得分
4️⃣ 视觉能力更强,在 COCO 测试集上达到了 92.4%