专栏名称: 大模型智能
机器学习算法、深度学习算法、自然语言处理等干货知识集中营
目录
相关文章推荐
新华美育  ·  小活动大作用(每日更新)-2025.6.16 ·  昨天  
新华美育  ·  小活动大作用(每日更新)-2025.6.16 ·  昨天  
广西生态环境  ·  生态文化 | AI创意歌舞《水之灵》 ·  2 天前  
生态环境部  ·  生态文化 | AI创意歌舞《水之灵》 ·  3 天前  
51好读  ›  专栏  ›  大模型智能

人大高瓴人工智能学院师生论文被国际学术会议 ACL 2025 录用

大模型智能  · 公众号  ·  · 2025-05-20 00:00

正文

请到「今天看啥」查看全文


图片



论文介绍

论文题目: KG-Agent: An Efficient Autonomous Agent Framework for Complex Reasoning over Knowledge Graph

作者: 蒋锦昊, 周昆, 赵鑫 ,宋洋,朱琛,祝恒书,文继荣

通讯作者: 赵鑫,宋洋

论文概述: 在本文中,我们旨在提升大语言模型(LLMs)基于知识图谱(KGs)的推理能力,以回答复杂问题。受现有设计大语言模型与知识图谱交互策略的方法启发,我们提出了一个基于大语言模型的自主智能体框架,称为KG-Agent,它使小型大语言模型能够主动做出决策,直至完成基于知识图谱的推理过程。在KG-Agent中,我们整合了大语言模型、多功能工具箱、基于知识图谱的执行器以及知识记忆,并开发了一种迭代机制,该机制可自主选择工具,然后更新用于基于知识图谱推理的记忆。为确保有效性,我们利用编程语言来构建基于知识图谱的多跳推理过程,并合成一个基于代码的指令数据集来微调基础大语言模型。大量实验表明,仅使用10K个样本对LLaMA-7B进行微调,无论是在域内还是域外数据集上,都能超越使用更大规模大语言模型或更多数据的当前最优方法。我们的代码和数据将公开发布。

图片



论文介绍

论文题目: Hierarchical Document Refinement for Long-context Retrieval-augmented Generation

作者: 金佳杰,李晓熙,董冠霆,张宇尧,朱余韬,伍永康,李中华,叶琪,窦志成

通讯作者: 朱余韬,窦志成

论文概述: 实际场景的RAG应用通常会遇到长上下文输入的场景,在这类场景中,检索文档中的冗余信息和噪声会导致推理成本增加和性能下降。为了解决这些挑战,我们提出了LongRefiner,一种即插即用的长文本精炼器,其通过提取长文本的内在结构高效捕捉有益信息。LongRefiner基于单一基座模型进行了多任务学习,包括双层查询分析、层次化文档结构化建模等多个任务,能够对长文档进行自适应精炼。通过在七个知识密集型问答数据集上的实验,我们证明了LongRefiner在各种场景下能够实现具有竞争力的性能,同时计算成本和延迟比最优基线低10倍。进一步的分析验证了LongRefiner的可扩展性、效率和有效性。

图片



论文介绍

论文题目: Optimal Transport-Based Token Weighting scheme for Enhanced Preference Optimization

作者: 李萌,胡张广达,张海波,王希廷,曾安祥

通讯作者: 王希廷,曾安祥

论文概述: 直接偏好优化(Direct Preference Optimization, DPO)作为一种新兴算法,通过直接优化优选与次优选回答之间的对数似然差异,使大语言模型(LLMs)更好地对齐人类偏好。然而,现有方法对回答中的所有标记(token)赋予相同的重要性,忽略了人类在判断偏好时更关注语义上更关键的部分。这种不匹配导致了次优的偏好优化效果,因为那些无关或噪声较大的标记对 DPO 损失函数产生了过大的影响。为了解决这一问题,本文提出了基于最优传输理论的标记加权策略,以增强直接偏好优化的效果(Optimal Transport-based token weighting for Preference Optimization, OTPO)。通过强调语义上更相关的标记对,并降低相关性较低的标记的权重,本文引入了一种具备上下文感知能力的标记加权机制,从而获得更加对比鲜明的奖励差异估计。这种自适应加权机制不仅提升了奖励估计和可解释性,还能使偏好优化聚焦于回答之间更重要的差异。大量实验证实,OTPO在多个场景下均显著提升了模型的指令遵循能力。

图片


论文介绍

论文题目: RetroLLM: Empowering Large Language Models to Retrieve Fine-grained Evidence within Generation

作者: 李晓熙,金佳杰,周雨佳,伍永康,李中华,叶琪,窦志成

通讯作者: 窦志成

论文概述: 大型语言模型(llm)表现出非凡的生成能力,但往往会产生幻觉。检索增强生成(RAG)通过合并外部知识提供了一种有效的解决方案,但是现有方法仍然面临一些限制:单独检索器的额外部署成本、来自检索文本块的冗余输入令牌,以及缺乏检索和生成的联合优化。为了解决这些问题,我们提出了RetroLLM,这是一个统一的框架,将检索和生成集成到一个单一的内聚过程中,使llm能够直接从具有约束解码的语料库中生成细粒度的证据。此外,为了减少约束证据生成过程中的错误修剪,我们引入了(1)分层的FM-Index约束,该约束生成语料库约束线索,在证据生成之前识别相关文档子集,减少不相关的解码空间;(2)前瞻性约束解码策略,该策略考虑了未来序列的相关性,以提高证据准确性。在五个开放域QA数据集上进行的大量实验表明,RetroLLM在域内和域外任务上都具有卓越的性能。

图片



论文介绍

论文题目: Do not Abstain! Identify and Solve the Uncertainty

作者: 刘敬宇*,彭景权*,邬小鹏,李旭斌,葛铁铮,郑波,刘勇

通讯作者: 郑波,刘勇

论文概述: 大模型在面对不确定情境时常常表现出过度自信的问题。然而,目前的解决方案主要依赖于回避性回应。为了系统地研究和提升大语言模型识别与处理不确定性来源的能力,我们聚焦于三种类型的不确定性:文档稀缺、能力局限和问题歧义。通过实验发现,当前的大语言模型难以准确识别不确定性的原因并加以解决。为了解决这一问题,我们首先生成基于上下文的追问,以突出原始问题中的模糊之处;接着根据追问答案是否唯一来判断不确定性的来源;进一步地,我们采用一种on policy的学习方法——InteractDPO来生成更有效的追问。实验结果表明,我们的方法具有良好的效果。


论文介绍

论文题目: LLMs + Persona-Plug = Personalized LLMs

作者: 刘炯楠,朱余韬,王淑婷,魏骁驰,闵尔学,卢彧,王帅强,殷大伟,窦志成

通讯作者: 朱余韬, 窦志成

论文概述: 个性化在众多语言任务和应用中起着关键作用。为此,研究者提出了多种个性化方法,旨在使大语言模型(LLMs)能够生成符合用户偏好的定制化内容。其中一些方法通过为每个用户微调一个专属的个性化模型来实现,但这种方式成本高昂,难以大规模推广。为了解决这一问题,另一些方法采用了“即插即用”的策略,通过检索用户相关历史文本作为示例,引导模型生成个性化内容。然而,基于检索的策略可能破坏用户历史的连续性,难以充分捕捉用户的整体风格和行为模式,从而导致生成效果不佳。针对上述挑战,本文提出了一种新的个性化大语言模型方法PPlug。该方法设计了一个轻量级的用户嵌入模块,建模用户完整的历史上下文,为每位用户生成专属的嵌入表示。通过将该嵌入附加到任务输入中,LLMs无需调整自身参数即可更好地理解和捕捉用户的习惯与偏好,从而生成更具个性化的输出。在语言模型个性化基准(LaMP)中的多个任务上,实验结果表明该方法在性能上显著优于现有的个性化大语言模型方法。

图片


论文介绍

论文题目 :Sliding Windows Are Not the End: Exploring Full Ranking with Long-Context Large Language Models

作者 :刘文涵,马新宇,朱余韬,赵梓良,王帅强,殷大伟,窦志成

通讯作者 :窦志成

论文概述 :大语言模型(LLMs)在listwise文档排序任务中展现出优越的效果。 由于输入长度限制,现有方法通常采用滑动窗口策略。该策略虽有效,但效率低下——其重复且串行的处理机制会导致相关文档被多次重复评估,进而产生冗余的API开销。 随着长上下文LLMs的发展,现已能通过单次推理完成所有段落的完整排序(full ranking),从而避免冗余成本。本文针对排序任务的效率与效果,对长上下文LLMs进行了全面研究。实验发现:在监督微调场景下,长上下文LLMs的完整排序不仅能显著提升效率,更能实现更优效果。 进一步地,我们指出基于现有方法训练full reranker存在两大局限: (1) 滑动窗口策略无法生成full ranking list作为训练标签; (2) 语言建模损失函数难以强调标签中排名靠前的文档ID。 为此,我们提出一个完备的listwise标签构建方法以及一个新颖的重要性感知的优化损失函数。实验表明,该方法性能显著超越基线模型。 相关代码和模型均已开源。

图片



论文介绍

论文题目 :Towards Reward Fairness in RLHF: From a Resource Allocation Perspective

作者 :欧阳晟,胡羽蓝,陈戈,李卿阳,张富峥,刘勇

通讯作者 :刘勇

论文概述 :在基于人类反馈的强化学习(RLHF)中,奖励机制作为人类偏好的代理发挥着关键作用。但是,如果这些奖励本身存在偏差,可能会影响大语言模型(LLMs)的对齐效果。本文将奖励中存在的各种偏差统称为"奖励不公平性问题",并提出了一种不依赖于特定偏见的通用解决方案。具体来说,本文将偏好学习建模为资源分配问题,将奖励视为需要分配的资源,并在分配中考虑效用和公平之间的权衡。论文提出了两种方法以实现奖励的公平性。这些方法在验证和强化学习场景中应用,分别获得了公平的奖励模型和策略模型。实验结果表明该方法能够以更公平的方式实现大语言模型与人类偏好的对齐。


论文介绍

论文题目 :MathFusion: Enhancing Mathematic Problem-solving of LLM through Instruction Fusion

作者 :裴启智,吴郦军,盘卓实,李宇,林泓霖,明成林,高鑫,何聪辉,严睿

通讯作者 :吴郦军,何聪辉,严睿

论文概述 :大型语言模型 (LLM) 在数学推理方面取得了令人瞩目的进展。虽然数据增强有望提升数学问题解决能力,但目前的方法主要局限于实例级别的修改,例如问题的重新表述或生成问题变体,而这些修改无法捕捉和利用数学知识中固有的内在关系结构。受人类学习过程的启发,数学能力是通过系统地接触相互关联的概念而发展起来的。我们提出了 MathFusion,这是一个通过跨问题指令合成来增强数学推理能力的全新框架。MathFusion 通过三种融合策略来实现这一点:(1) 顺序融合,将相关问题与模型解决方案的依赖关系联系起来;(2) 并行融合,将类似问题结合起来以强化概念理解;(3) 条件融合,创建上下文感知的选择性问题以增强推理灵活性。通过应用这些策略,我们生成了一个新的数据集MathFusionQA,并在其上构建了微调模型(DeepSeekMath-7B、Mistral-7B 和 Llama3-8B)。实验结果表明,MathFusion 在保持高数据效率的同时,在数学推理方面取得了显著提升,在多个基准测试中准确率提升了 18.0 个百分点,而仅需额外添加 45,000 条合成指令,相比传统的单指令方法实现了显著提升。


论文介绍

论文题目 :The Tug of War Within: Mitigating the Fairness-Privacy Conflicts in Large Language Models

作者 :钱辰*,刘东瑞*,张杰,刘勇,邵婧

通讯作者 :刘勇,邵婧

论文概述 :确保大型语言模型(LLMs)具备公平性与隐私意识至关重要。有趣的是,我们发现了一个反直觉的权衡现象:通过监督微调(SFT)方法增强LLM的隐私意识时,即便使用数千个样本,其公平性意识也会显著下降。受信息论启发,我们提出了一种免训练的解决方案——抑制隐私与公平耦合神经元(SPIN),该方法从理论与实证层面降低了公平意识与隐私意识之间的互信息。大量实验表明,SPIN能有效消除这种权衡现象,在不损害模型通用能力的前提下,同步显著提升LLM的公平性与隐私意识(例如将Qwen-2-7B-Instruct的公平性意识提升12.2%,隐私意识提升14.0%)。更重要的是,在标注数据有限或仅能获取恶意微调数据的极端场景下,SPIN仍能保持稳健的有效性,而传统SFT方法在这些情况下可能完全失效。本研究为同步解决LLM的公平性与隐私问题提供了新思路,未来可融入综合框架以开发更符合伦理的负责任AI系统。

图片



论文介绍

论文题目 :Internal Value Alignment in Large Language Models through Controlled Value Vector Activation

作者 :靳浩然,李萌,王希廷,许志豪,黄民烈,贾岩涛,连德富

通讯作者 王希廷,连德富

论文概述 :大型语言模型 (LLMs) 与人类价值观的对齐正受到越来越多的关注,因为它能提供清晰度、透明度及适应未知场景的能力。本文提出一种名为 ConVA 的内部价值观对齐方法,通过定位LLMs隐层激活值空间中价值观的编码方向并修改其激活状态以实现模型的价值观对齐。我们设计了一种上下文受控的价值向量识别方法以实现精准无偏的内部价值观定位。为在不损害模型通用性能的前提下实现稳定的价值观对齐,我们引入门控式价值向量激活机制,通过求解带约束的优化问题来达成最小强度的有效价值干预。实验表明,ConVA在10项基础价值观上均取得最高控制成功率,并且不影响LLMs的原始性能与流畅度,即使在面对相反价值观提示输入时仍能确保模型遵循目标价值观。

图片



论文介绍

论文题目 :Unlocking General Long Chain-of-Thought Reasoning Capabilities of Large Language Models via Representation Engineering

作者 :汤昕宇,王晓磊,吕智昊,闵映乾,赵鑫,胡斌斌,刘子奇,张志强

通讯作者 :赵鑫

论文概述 :在这个工作中,我们探索如何解锁大语言模型中潜在的通用长链思考推理能力。现有研究表明,通过少量样本的微调,大语言模型可以展现出长链思考(long CoT)推理的能力,并且这种能力可以迁移到其他任务上。这引起了新的猜测:长链思考推理是否是大语言模型内在的一种通用能力,而不仅仅是在特定任务上通过训练获得的。本文首先从大模型中提取表征并发现:(1)大语言模型确实将long CoT推理编码为一种通用能力:通过可视化和定量分析,我们发现long CoT的表征集中在模型参数空间中的特定区域,并且与vanilla CoT的表征有明显区分。(2)Long CoT推理的可迁移性:不同领域(如数学、物理、化学、生物)的long CoT和vanilla CoT之间存在相似的对比表征。基于上述发现,我们提出了GLoRE,一种基于表征工程的新方法,用于解锁大语言模型通用的long CoT推理能力。实验证明了该方法在领域内(数学领域)和跨领域(物理、化学和生物领域)两种场景下的有效性、高效性与可扩展性。







请到「今天看啥」查看全文