专栏名称: 美团技术团队

10000+工程师，如何支撑中国领先的生活服务电子商务平台？数亿消费者、数百万商户、2000多个行业、几千亿交易额背后是哪些技术在支撑？这里是美团、大众点评、美团外卖、美团配送、美团优选等技术团队的对外窗口。

论文解读及活动预告 | ICLR&CVPR 2025美团技术团队论文精选

美团技术团队 · 公众号 · 架构 · 2025-04-10 19:58

正文

请到「今天看啥」查看全文

论文简介 ：基于对现有方法的深入分析，我们发现当前研究普遍将整个序列中每个奖励的贡献视为均匀，这无法充分捕捉偏好优化中的细微差别。具体而言，序列中的时间动态可能影响某些词或片段的重要性。通过对三种广泛使用的开源模型进行KL散度分析，观察到早期词的分布更受DPO影响，随着位置的增加，KL散度逐渐减小。这一发现与先前研究一致，即对齐在早期词更为关键，因为准确的前缀能够为后续词生成提供更可靠的基础。

基于上述观察，论文提出了一种改进的DPO方法——Temporal-decay DPO（简称 D²PO ）。该方法引入了时间衰减因子，由参数γ控制，在训练过程中动态调节每个奖励的贡献。通过引入自适应时间衰减机制，D²PO不仅增强了早期词的贡献，同时保持了DPO的计算效率，其引入的时间衰减机制也为偏好优化提供了新的视角和方法，在多个广泛使用的基准测试中，包括AlpacaEval2、Arena-Hard 和 MT-bench，均表现出显著的效果提升，同时未损害模型的通用能力。

03

Denoising with a Joint-Embedding Predictive Architecture

论文类型 ：Poster

论文下载 ： PDF

论文简介 ：针对当前文生图等多模态生成模型在连续数据建模中的技术瓶颈，本工作提出了一种创新性融合架构D-JEPA。尽管联合嵌入预测架构（ JEPA ）在自监督表示学习领域表现出色，但在多模态生成任务上的建模潜力尚未充分开发；而扩散模型虽具备任意概率分布的建模能力，却未能有效整合先进的表示学习机制。

为改变这种技术割裂现状，D-JEPA通过三大核心突破实现技术融合：(1) 创造性重构JEPA框架，将其解释为掩码图像建模的泛化形式，进而演化为连续空间中的自回归生成范式；(2) 引入基于FlowMatching的扩散损失函数，在保留JEPA结构化表征优势的同时，实现对token级概率分布的精准建模；(3) 构建统一训练框架，使模型既能继承JEPA的高效表示学习能力，又具备扩散模型的精细分布建模特性。

通过系统实验验证，相比单一的扩散模型、自回归架构以及已公开的融合架构相比，该方法在计算效率、生成质量、跨模态迁移性等方面具备综合优势，为下一代多模态生成发展提供了新的技术范式。

04

QQQ: Quality Quattuor-Bit Quantization for Large Language Models

论文类型 ：WorkShop

论文下载 ： PDF

论文简介 ：本文提出了一种高效的大型语言模型量化方法QQQ，采用4-bit权重和8-bit激活值（ W4A8 ）的量化策略，在保持模型精度的同时显著提升推理速度。该方法通过自适应平滑和基于Hessian矩阵的补偿机制，有效解决了传统W4A8量化导致的精度下降问题，无需依赖大量训练即可实现高质量量化。同时针对per-channel和per-group两种量化粒度设计了W4A8 GEMM kernel，计算速度分别达到FP16 GEMM的3.67倍和3.29倍。实验结果表明，QQQ在精度上与当前最先进的LLM量化方法相当，同时在推理速度上相比FP16、W8A8和W4A16分别实现了2.24倍、2.10倍和1.25倍的提升，为大型语言模型的高效部署提供了新的技术方案。

CVPR（ Computer Vision and Pattern Recognition ）是计算机视觉和模式识别领域的顶级国际学术会议，会议为研究者提供了一个交流最新研究成果和技术进展的平台，涵盖了计算机视觉的各个方面，包括图像处理、视频分析、视觉生成、多模态大模型等。