专栏名称: DASOU
一名算法工程师,分享工作日常和AI干货,专注深度学习。
目录
相关文章推荐
大河报  ·  自查!罗马仕召回近50万台充电宝 ·  22 小时前  
大河报  ·  自查!罗马仕召回近50万台充电宝 ·  22 小时前  
浦东知识产权  ·  推进创新药全球化布局、加快AI药物研发……创 ... ·  22 小时前  
领教工坊  ·  泡泡玛特王宁:对的事情自然会带来用户 ·  昨天  
领教工坊  ·  泡泡玛特王宁:对的事情自然会带来用户 ·  昨天  
上海普陀  ·  【聚势金牛 ... ·  2 天前  
上海普陀  ·  【聚势金牛 ... ·  2 天前  
51好读  ›  专栏  ›  DASOU

大模型“卷”疯了?常用的6个顶会思路!!

DASOU  · 公众号  · 科技创业 科技自媒体  · 2025-06-18 11:16

主要观点总结

本文主要介绍了大模型研究中的六个备受顶会青睐的方向,包括LLM+合成数据、LLM+奖励模型、大模型推理、长文本、LLM-as-a-Judge和安全对齐。每个方向都提供了相关的论文内容和创新思路,以及对应的源码获取方式。此外,文章还介绍了各方向的研究现状、研究热点及未来发展方向。

关键观点总结

关键观点1: LLM+合成数据

介绍了一下的新兴方向LLM+合成数据,包括其缓解了大模型依赖海量数据的问题,各类O1模型的有效性验证等。

关键观点2: LLM+奖励模型

指出了大模型生成的毒性内容、幻觉等问题,奖励模型对于提升对齐效果的作用以及目前泛化能力的弱点。提到了关注代理型奖励模型、自我反思奖励模型等方向。

关键观点3: 大模型推理

介绍了大模型推理在学术界和工业界的热门程度,其可发挥空间很大,并提到了Scaling Law、在线强化学习等值得探索的方向。

关键观点4: 长文本

概述了长文本方面的重点,如数据质量、位置编码、工程优化等,并介绍了OMNIKV等相关研究。

关键观点5: LLM-as-a-Judge

介绍了LLM-as-a-Judge的相关研究,包括其用于评估多模态大型语言模型的新基准MLLM-as-a-Judge,并讨论了其在视觉-语言任务中的应用。

关键观点6: 安全对齐

阐述了安全对齐的重要性,包括确保大模型与人类价值观、伦理规范的一致性。介绍了相关文章,讨论了微调大型语言模型时的安全风险以及量化和评估这些风险的方法。


正文

请到「今天看啥」查看全文


下方二维码,回复「 85LLM

免费获取 全部论文合集及项目代码


LLM+合成数据

GPT-FL: Generative Pre-trained Model-Assisted Federated Learning

内容: 本文提出了一种名为 GPT-FL 的生成式预训练模型辅助的联邦学习框架,旨在通过利用生成式预训练模型生成多样化的合成数据来提升联邦学习的性能。这些合成数据被用于在服务器上集中训练下游模型,然后在标准联邦学习框架下用私有客户端数据进行微调。实验表明,GPT-FL 在模型测试精度、通信效率和客户端采样效率方面均优于现有的联邦学习方法,并且无论目标数据是否在预训练生成模型的领域内,都能显著提升性能。


LLM奖励模型

Agentic Reward Modeling: Integrating Human Preferences with  Verifiable Correctness Signals for Reliable Reward Systems

内容:







请到「今天看啥」查看全文