专栏名称: 经纬创投
经纬创投公众平台,创享汇,新闻发布官方平台
目录
相关文章推荐
宁夏工信  ·  攻坚年我们在行动(十一)| ... ·  昨天  
IT桔子  ·  构建AI ... ·  昨天  
真格基金  ·  三个从港大走出的 90 ... ·  3 天前  
51好读  ›  专栏  ›  经纬创投

DeepSeek的文采如何炼成? |【经纬低调分享】

经纬创投  · 公众号  · 科技投资  · 2025-02-12 11:43

正文

请到「今天看啥」查看全文



01
通过后训练阶段两个步骤协同实现华丽风格

事实上,DeepSeek 不仅会写诗,其走心的回答风格已经让不少用户直呼“戳中心窝”。毫无疑问,DeepSeek 华丽抒情走心的文风展现了 AI 温暖的一面。那么,是什么技术促成了这样的风格?


上海交通大学副教授赵波表示,通过一些试用可以发现,DeepSeek 主要包含八种角色设定:电影角色、新闻主持、历史人物、动漫游戏、文学角色、职业角色、搞笑角色和科幻角色。每种角色大类又分别包含其类型中的经典人物。DeepSeek 可以按照用户要求,模仿特定角色的语言或行文风格与用户交互。这一能力来源自然是训练数据,这需要 DeepSeek 的开发者针对丰富的角色/风格/场景,收集对应的多轮对话和指令跟随数据来训练模型。而这些数据的来源可能是原始资料数据、人工标注数据、模型合成数据等。


美国耶鲁大学助理教授杨卓然从微观角度给出了一些解读。他表示根据 DeepSeek‑V3 技术报告, DeepSeek 的华丽文风主要是通过后训练阶段的两个步骤协同实现的。


第一个步骤是监督微调(SFT,Supervised Fine-Tuning)。在监督微调阶段,模型接触到了大量高质量的语言表达示例,尤其是针对创意写作等非推理任务的数据。杨卓然表示,具体来说对于创意写作任务,初始回答由 DeepSeek‑V2.5 生成,随后经过人工审核来确保内容的准确性和风格的一致性。正是在这部分数据中,模型学习到了大量语言表达优美、用词讲究的示例,这为它后续生成华丽文风奠定了基础。


第二个步骤是强化学习(RL,Reinforcement Learning)。在强化学习阶段,模型利用奖励机制进一步优化生成结果。对于诸如创意写作这样的开放式任务,奖励模型会对生成的回答进行评分,不仅要求答案准确,还鼓励模型在措辞、句式和逻辑上表现得更加精致、富有文采。奖励模型基于监督微调阶段得到的 DeepSeek‑V3 checkpoints 进行训练,并通过高温采样和多步优化,使模型在生成时逐步融合精美的修辞和细腻的表达方式。


北京邮电大学副教授白婷则综合 DeepSeek 的多款模型,从宏观角度给出了一些解读。她表示,DeepSeek 曾在技术报告里提到一些关键技术:比如 DeepSeek-V2 使用了 Multi-Head Latent Attention 和 Sparse MoE 架构,其中 Multi-Head Latent Attention 是为了提高模型效率,MoE 架构则能通过利用多专家能力来提高模型能力。DeepSeek-V3 把多专家架构加入辅助函数进行负载均衡的优化,同时也加入了强化学习进行增强。DeepSeek-R1 版本则是解决模型推理能力,它直接使用强化学习去指导思维链的生成,并通过知识蒸馏赋予小模型以更大的能力。


白婷指出, DeepSeek






请到「今天看啥」查看全文