正文
济南校区电气信息系计算机科学与技术专业 1 班的昝道广是师生眼里典型的“学霸”。在大学学期,昝道广学习成绩稳居专业第一, 8 次获奖学金;获发明专利 1 项、软件著作权 2 项,发表学术论文 5 篇;多次担任队长参加大学生数学建模、软件设计、算法设计、程序设计等各级竞赛,获省级以上奖项 9 项,获得 Java 高级工程师、IBM 软件工程师等证书……
去年,昝道广加入字节跳动并在短时间内构建并开源了首个多语言代码修复基准 Multi-SWE-bench。
另一位 Q 同学主导并开源了可以在虚拟世界中高效执行各类任务的多模态智能体项目深受开发者群体欢迎,Desktop 版本 GitHub Star 数破万。
UI-TARS 能够在虚拟世界中高效执行各类任务。目前,UI-TARS-1.5 已在 7 个典型的 GUI 图形用户界面评测基准中取得 SOTA 表现,并首次展现了其在游戏中的长时推理能力和在开放空间中的交互能力。
综合上述信息,InfoQ 推测,Q 同学是该论文的一作者
秦禹嘉
。
秦禹嘉
专注于 LLM/VLM 类代理。于 2024 年从清华大学获得计算机科学博士学位,师从刘知远,2020 年于清华大学获得电子工程学士学位,导师为吴冀。
研究生期间,他曾在腾讯微信模式识别组担任实习生,导师为李鹏博士和林彦凯博士。他也曾创办了一家 AI 公司 SeqAI Inc. ,后又于去年 7 月份通过 Top Seed 计划入职字节跳动。
最后是 H 同学。他作为一作发表超稀疏模型架构 UltraMem 研究,有效解决 MoE 推理时高额的访存问题,推理速度较 MoE 架构提升 2-6 倍,推理成本最高可降低 83%。
在 Transformer 架构下,模型的性能与其参数数量和计算复杂度呈对数关系。随着 LLM 规模不断增大,推理成本会急剧增加,速度变慢。
字节跳动提出的这款全新的稀疏模型架构 UltraMem 有效解决了 MoE 推理时高额的访存问题,还揭示了新架构的 Scaling Law,证明其不仅具备优异的 Scaling 特性,更在性能上超越了 MoE。
实验结果表明,训练规模达 2000 万 value 的 UltraMem 模型,在同等计算资源下,可同时实现业界领先的推理速度和模型性能,为构建数十亿规模 value 或 expert 开辟了新路径。
InfoQ 查阅论文发现,该技术论文的一作为 Zihao Huang。
根据 OpenReview 信息,Zihao Huang 于 2021 年硕士毕业于南开大学人工智能学院,同年加入字节跳动。
一流高校硕士、博士生、顶级学霸,这些都是已经进入 Top Seed 的人才身上的标签,也侧面反映了该项目的选拔人才标准——只要 5% 顶尖人才。
说完了对人才的要求,Top Seed 又能给予候选人提供什么呢?
首先是钱
。
能提供行业 Top 级薪资待遇。据进入计划的一位北大的学生透露,实习工资被提到了 2000 元一天,要是按照一个月出勤 20 天来算,实习工资将达到月薪 4 万元,这在全行业来讲也属高薪范畴。