正文
https://arxiv.org/abs/2406.02550
简介
:研究人员通过一系列模块算术任务,研究了大型语言模型的上下文学习和技能组合能力的产生。
概要
:具体而言,他们考虑了一个有限的模块线性函数集合,这些函数由整数对(a,b)标记,表示为 z=ax+by mod p。研究者使用部分任务进行预训练,其余任务用于超出分布的测试。实验结果表明,随着预训练任务数量的增加,GPT-style 变换器展现出从内部分布到超出分布的泛化能力的过渡。研究发现,最小的能够实现超出分布泛化的模型需要两个变换器块,而对于更深层次的模型,超出分布的泛化阶段是暂时的,需要早期停止。此外,研究者对预训练模型进行了可解释性研究,揭示了注意力头部和 MLPs 中的高度结构化表示,并讨论了学习到的算法。值得注意的是,随着从少量到许多上下文示例的过渡,研究者在更深层次的模型中发现了算法转变。
Learning to grok 代码
[4]
已开源。
6.DuQuant: Distributing Outliers via Dual Transformation Makes Stronger Quantized LLMs
https://arxiv.org/abs/2406.01721
简介
:本文介绍了DuQuant,一种新的大型语言模型(LLMs)量化方法,通过旋转和置换变换有效减轻异常值影响,提高了量化模型的性能,并在4位权重-激活量化中达到新的最佳性能。
概要
:DuQuant是一种创新的量化方法,旨在解决大型语言模型(LLMs)量化过程中异常值激活的问题。该方法通过构建旋转矩阵和置换矩阵,重新分配异常值,简化量化过程并提升模型性能。DuQuant首先识别特定维度的异常值,并使用贪心算法构建旋转矩阵,通过块状旋转将异常值重新分配到相邻通道。接着,采用锯齿形置换来平衡不同块之间的异常值分布,进一步减少块间方差。最后,再次旋转以平滑激活景观,增强模型性能。实验表明,DuQuant在多种任务和不同大小的LLMs上均优于现有基线,即使在4位权重-激活量化的情况下也能实现。
DuQuant 代码
[5]
已在GitHub上开源。
7.HydraLoRA: An Asymmetric LoRA Architecture for Efficient Fine-Tuning
https://arxiv.org/abs/2404.19245
简介
:本文通过实验揭示 LoRA 在训练和参数利用方面的低效问题,进而提出具有非对称结构的 HydraLoRA 框架,该框架无需领域专业知识,在实验中表现优于其他参数高效微调方法。
概要
:通过引入参数高效微调(PEFT)技术(如 LoRA),大语言模型(LLMs)在新任务上的微调效率得到了提高。然而,与完全微调相比,这些方法往往表现欠佳,特别是在涉及复杂数据集的场景中。这个问题在复杂领域中更为突出,这凸显了对能够实现更好性能的改进 PEFT 方法的需求。通过一系列实验,我们揭示了两个关键见解,这些见解揭示了 LoRA 在训练和参数利用方面的低效性。基于这些见解,我们开发了 HydraLoRA,这是一个具有非对称结构的 LoRA 框架,无需领域专业知识。我们的实验表明,HydraLoRA 优于其他 PEFT 方法,甚至优于那些在训练和推理阶段依赖领域知识的方法。
HydraLorA 官方代码
[6]
已开源。
MLLM
8.Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs
https://arxiv.org/abs/2406.16860
简介
:Cambrian-1 是一系列以视觉为中心的多模态大型语言模型(MLLMs),旨在探索和改进视觉表示学习与语言模型结合的效果,并提供了一个新的视觉中心的基准测试 CV-Bench,以及一种名为 Spatial Vision Aggregator(SVA)的新型视觉特征集成方法。
概要
:本研究引入了 Cambrian-1,这是一系列多对多模态大型语言模型(MLLMs)的视觉中心设计。研究人员指出,虽然更强大的语言模型可以增强多模态能力,但视觉组件的设计选择往往不足以探索,且与视觉表示学习研究脱节,这限制了在现实世界场景中准确地进行感官接地。Cambrian-1 利用 LLMs 和视觉指令调优作为评估不同视觉表示方法的接口,包括自监督、强监督或两者结合的模型和架构,通过对 20 多种视觉编码器的实验提供了新的见解。研究者们批判性地审视了现有的 MLLMs 基准测试,解决了在不同任务中整合和解释结果的困难,并引入了一个新的视觉中心基准 CV-Bench。为了进一步提高视觉接地,他们提出了 Spatial Vision Aggregator(SVA),这是一种动态且空间感知的连接器,能够集成高分辨率的视觉特征与 LLMs,同时减少了令牌数量。此外,研究还讨论了从公开可用的来源策划高质量视觉指令调优数据的重要性,强调了数据来源平衡和分布比例的重要性。总体而言,
Cambrian-1 项目
[7]
不仅实现了最先进的性能,而且还作为一个全面的、开放的多模态 LLMs 指令调优指南,提供了模型权重、代码、辅助工具、数据集以及详细的指令调优和评估方法。研究团队希望这一发布能够激发和加速多模态系统和视觉表示学习领域的进步。
Benchmark
9.AgentBoard: An Analytical Evaluation Board of Multi-turn LLM Agents
https://arxiv.org/abs/2401.13178
简介
:主要介绍了 AgentBoard,一个专门针对大型语言模型(LLM)多轮对话代理的分析评估框架,该框架旨在通过提供细粒度的进度评估和全面的分析工具包来深入理解 LLM 代理的能力和局限性。
概要
:AgentBoard 是一个创新的综合基准测试和开源评估框架,用于分析评估大型语言模型(LLM)代理。该框架引入了细粒度的进度率指标,能够捕捉到在多轮对话中的逐步进展,并提供了一个全面的评估工具包,用于多方面分析 LLM 代理的性能。这不仅有助于揭示 LLM 代理的能力和局限性,而且还推动了其性能解释性的提升。AgentBoard 的设计目的是为了揭开 LLM 代理行为背后的神秘面纱,并加速更强大 LLM 代理的开发。
AgentBoard 代码库
[8]
提供了该论文相关的代码、数据、媒体资源和演示链接。
10.CVQA: Culturally-diverse Multilingual Visual Question Answering Benchmark
https://arxiv.org/abs/2406.05967
简介
:CVQA 数据集由 30 个国家的志愿者和文化专家共同构建,涵盖 31 种语言和 13 种脚本,提供了 1 万个问题和相应的图像。这些图像和问题是文化导向的,旨在反映全球多样性。
概要
:该研究团队还在 CVQA 上评估了多模态大型语言模型(MLLMs)的性能,结果表明当前的最先进模型在这个更具挑战性的数据集上表现不佳,说明了存在的文化和语言偏见问题。研究人员希望 CVQA 能够作为评估多模态模型文化适应性和偏见的工具,并鼓励更多的研究关注文化意识和语言多样性。此外,该研究还提供了
CVQA
[9]
相关的代码、数据集和 Leaderboard。
11.MedCalc-Bench: Evaluating Large Language Models for Medical Calculations
https://arxiv.org/abs/2406.12036
简介
:本文提出了 MedCalc-Bench,一个新的数据集,用于评估大型语言模型在医疗计算任务上的能力,强调了医疗场景中量化知识和推理的差距,并鼓励未来改进这些模型以适应临床环境。
概要
:该研究针对大型语言模型(LLMs)在医学领域的应用,提出了 MedCalc-Bench 数据集,这是一个专注于评估 LLMs 在医疗计算能力方面的首次尝试。MedCalc-Bench 包含了超过 1000 个经过人工审核的实例,涵盖 55 种不同的医疗计算任务。每个实例包括患者笔记、请求计算特定医疗值的问题、答案的真实基准以及详细的步骤说明,展示了答案是如何得出的。研究结果显示,尽管 LLMs 在这一领域有潜力,但它们目前还不足以用于临床环境。常见的问题包括提取错误的实体、使用错误的方程或规则进行计算任务,以及在计算过程中进行错误的算术操作。研究者们希望通过这项研究,突出 LLMs 在医学环境中的量化知识和推理差距,并鼓励未来对 LLMs 在各种临床计算任务上的改进。
MedCalc-Bench 数据集