正文
那当时参与这个项目的还有谁?还有姜大昕等人。
尤其值得一提的是姜大昕,他于 2007 年加入微软亚洲研究院任首席研究员,后来又曾任微软全球副总裁、微软亚洲互联网工程研究院(STCA)副院长和首席科学家。2023 年,他在上海创立了阶跃星辰智能科技有限公司,任法定代表人、CEO。
基于 Evol-Instruct,2023 年 5 月 26 日,微软和北京大学的研究团队发布了 WizardLM 大语言模型,这个大语言模型能够根据复杂指令生成文本。它使用了一个名为 Evol-Instruct 的算法来生成和改写指令数据,从而提高了指令的复杂度和多样性。当时 WizardLM 共有三个版本:7B、13B 和 30B。
WizardLM 的核心算法是指一种称为 Evol-Instruct 的指令进化论。与手动创建、收集、筛选高质量指令数据的巨大耗费不同,Evol-Instruct 是一种使用大语言模型而非人类创建大量不同复杂度级别的指令数据的高效途径。
Evol-Instruct 的指令进化论 Evol-Instruct 算法从一个简单的初始指令开始, 然后随机选择深度进化或广度进化,前者将简单指令升级为更复杂的指令,而后者则在相关话题下创建新指令(以增加多样性)。以上两种进化操作是通过若干特定的 Prompt 提示大语言模型来实现。
研究人员采用指令过滤器来筛选出失败的指令,这被称为淘汰进化。论文中,给出了 4 个重要的实验现象:
-
人类评估结果证明,由 Evol-Instruct 进化生成的机器指令质量整体优于人类指令(ShareGPT)。
-
高难度指令的处理能力:人类评估者认为此时 WizardLM 的响应比 ChatGPT 更受欢迎。
-
代码生成与补全能力:在 HumanEval 评估中,WizardLM-30B 同时击败了 code-cushman-001 与目前最强代码开源模型 StarCoder 。这证明了 Llama 系列预训练模型的代码能力并不差,在高效的对齐算法加持下,依然可以获得优异的表现。
-
WizardLM-13B 同时在 AlpacaEval 与 Evol-Instruct 测试集的 GPT-4 评估中,获得了高度一致的 ChatGPT 能力占比(前者为 87% ChatGPT,后者为 89% ChatGPT)。
当时 WizardLM-30B,在 Evol-Instruct 测试集上取得了 97.8% 的 ChatGPT 分数占比。
曾经 WizardLM 模型有多强呢?
在 2023 年 UC 伯克利主导的「LLM 排位赛」中,WizardLM 甚至“杀入”全球大语言模型榜单的全球前四,前三位分别是 GPT-4、Claude 和 ChatGPT,WizardLM 也是华人团队开源模型第一名。
WizardLM 研究团队的主要目标是增强 AI 模型理解和生成类似人类文本的能力,从而改进聊天机器人、翻译服务和代码生成工具等应用。
2024 年 4 月,WizardLM-2 系列模型问世,旨在在性能和效率方面与现有模型相媲美。 这些模型旨在处理复杂的任务,包括多语言翻译、推理和基于代理的交互。
WizardLM-2 系列包含多个型号,主要是:
-
WizardLM-2 8x22B:专为处理高度复杂任务而设计的先进模型,据团队称,这款模型具有与领先的专有模型相媲美的竞争性能。
-
WizardLM-2 70B:专注于顶级推理能力,更适合用于需要深入理解和分析的任务场景中
-
WizardLM-2 7B:旨在以更快的处理时间提供高性能,适用于速度至关重要的应用。