【[33星]avataRL:从零开始用纯强化学习训练语言模型,挑战传统预训练模式。亮点:1. 跳过传统预训练阶段,直接用GRPO优化训练;2. 采用Flash Attention 2,内存复杂度降低至O(n);3. RMSNorm代替LayerNorm,速度提升约2倍】
知名互联网资讯博主 北邮PRIS模式识别实验室陈老师 |
![]() |
爱可可-爱生活 · [LG]《Intention-Conditi ... · 9 小时前 |
![]() |
黄建同学 · 这篇文章《Don’t Build ... · 昨天 |
![]() |
爱可可-爱生活 · 今日推介(第1801期):大语言模型的精细缩 ... · 昨天 |
|
机器之心 · 「倒计时3天」2025 ... · 昨天 |
|
AI科技大本营 · LeCun亲自官宣!Meta世界模型V-JE ... · 2 天前 |
|
AI科技大本营 · LeCun亲自官宣!Meta世界模型V-JE ... · 2 天前 |
![]() |
爱可可-爱生活 · [LG]《Intention-Conditioned Flow -20250615061116 9 小时前 |
![]() |
爱可可-爱生活 · 今日推介(第1801期):大语言模型的精细缩放律、无监督语言模型-20250614062049 昨天 |
|
机器之心 · 「倒计时3天」2025 WAIC云帆奖全球征集|共青年之智,铸AGI未来 昨天 |
|
AI科技大本营 · LeCun亲自官宣!Meta世界模型V-JEPA 2登场!仅用62小时机器人数据,就能实现零样本控制! 2 天前 |
|
AI科技大本营 · LeCun亲自官宣!Meta世界模型V-JEPA 2登场!仅用62小时机器人数据,就能实现零样本控制! 2 天前 |
|
V保险 · 这样卖保险,签单很容易... 8 年前 |
|
摄影讲评 · 摄影战术:把“遭遇战”变“伏击战” 8 年前 |
|
中扑网 · 看过那么多次WSOP赛事报道,这么棒的赛况直播还是第一次! 8 年前 |
|
西子湖畔 · 你在喝的水有多“污”?你造吗? 8 年前 |
|
VOA英语听力 · [雅思习语IELTS and idioms 11]to make my mouth water 7 年前 |