正文
论文简介
:
基于对现有方法的深入分析,我们发现当前研究普遍将整个序列中每个奖励的贡献视为均匀,这无法充分捕捉偏好优化中的细微差别。具体而言,序列中的时间动态可能影响某些词或片段的重要性。通过对三种广泛使用的开源模型进行KL散度分析,观察到早期词的分布更受DPO影响,随着位置的增加,KL散度逐渐减小。这一发现与先前研究一致,即对齐在早期词更为关键,因为准确的前缀能够为后续词生成提供更可靠的基础。
基于上述观察,论文提出了一种改进的DPO方法——Temporal-decay DPO(
简称 D²PO
)。该方法引入了时间衰减因子,由参数γ控制,在训练过程中动态调节每个奖励的贡献。通过引入自适应时间衰减机制,D²PO不仅增强了早期词的贡献,同时保持了DPO的计算效率,其引入的时间衰减机制也为偏好优化提供了新的视角和方法,在多个广泛使用的基准测试中,包括AlpacaEval2、Arena-Hard 和 MT-bench,均表现出显著的效果提升,同时未损害模型的通用能力。
03
Denoising with a Joint-Embedding Predictive Architecture
论文类型
:Poster
论文简介
:
针对当前文生图等多模态生成模型在连续数据建模中的技术瓶颈,本工作提出了一种创新性融合架构D-JEPA。尽管联合嵌入预测架构(
JEPA
)在自监督表示学习领域表现出色,但在多模态生成任务上的建模潜力尚未充分开发;而扩散模型虽具备任意概率分布的建模能力,却未能有效整合先进的表示学习机制。
为改变这种技术割裂现状,D-JEPA通过三大核心突破实现技术融合:(1) 创造性重构JEPA框架,将其解释为掩码图像建模的泛化形式,进而演化为连续空间中的自回归生成范式;(2) 引入基于FlowMatching的扩散损失函数,在保留JEPA结构化表征优势的同时,实现对token级概率分布的精准建模;(3) 构建统一训练框架,使模型既能继承JEPA的高效表示学习能力,又具备扩散模型的精细分布建模特性。
通过系统实验验证,相比单一的扩散模型、自回归架构以及已公开的融合架构相比,该方法在计算效率、生成质量、跨模态迁移性等方面具备综合优势,为下一代多模态生成发展提供了新的技术范式。
04
QQQ: Quality Quattuor-Bit Quantization for Large Language Models
论文类型
:WorkShop
论文简介
:
本文提出了一种高效的大型语言模型量化方法QQQ,采用4-bit权重和8-bit激活值(
W4A8
)的量化策略,在保持模型精度的同时显著提升推理速度。该方法通过自适应平滑和基于Hessian矩阵的补偿机制,有效解决了传统W4A8量化导致的精度下降问题,无需依赖大量训练即可实现高质量量化。同时针对per-channel和per-group两种量化粒度设计了W4A8 GEMM kernel,计算速度分别达到FP16 GEMM的3.67倍和3.29倍。实验结果表明,QQQ在精度上与当前最先进的LLM量化方法相当,同时在推理速度上相比FP16、W8A8和W4A16分别实现了2.24倍、2.10倍和1.25倍的提升,为大型语言模型的高效部署提供了新的技术方案。
CVPR(
Computer Vision and Pattern Recognition
)是计算机视觉和模式识别领域的顶级国际学术会议,会议为研究者提供了一个交流最新研究成果和技术进展的平台,涵盖了计算机视觉的各个方面,包括图像处理、视频分析、视觉生成、多模态大模型等。