专栏名称: 字节跳动技术团队

字节跳动的技术实践分享

目录

相关文章推荐

字节跳动技术团队 · 远程访问代理+内网穿透：火山引擎边缘网关助力 ... · 7 小时前

字节跳动技术团队 · 稀土掘金 x Trae ... · 7 小时前

51好读 › 专栏 › 字节跳动技术团队

向量检索能力SOTA，字节Seed1.5-Embedding模型训练细节公开

字节跳动技术团队 · 公众号 · 架构 · 2025-05-13 17:31

正文

请到「今天看啥」查看全文

1. 基于 MoE 的向量模型：让 AI “听懂”搜索需求，也能复用文本特征

当传统搜广推技术与大模型浪潮彼此碰撞，向量模型也相应面临着更高要求：

（1）向量模型须具备强大的通用能力，精准建模文本的深层语义，从而为大模型引入最适合的外部知识；

（2）现实中，搜索场景经常涉及查询、深入理解文档，向量模型须在建模语义的基础上，进一步提升推理能力，以捕捉、建模复杂的匹配关系；

（3）向量模型须在运行和存储时足够高效，以支持各种下游场景的实际应用。

为满足上述要求，团队从 向量模型的 设计，到训练、数据工程，进行一系列优化和改进：

在模型结构上，团队使用 Siamese 双塔向量模型结构，取所有 token 表示的平均作为最终文本向量，查询与文档之间通过 cosine 相似度计算匹配得分。其依托 Seed1.5 预训练 LLM，并将单向注意力改为双向，构建出一个小规模 MoE 模型，且查询侧和文档侧模型参数共享，保证了较高的运行效率。

在实际应用中，向量模型的查询侧负责将用户输入转为向量，帮助 AI 理解查询意图。团队为不同任务定制了指令，引导模型学习相应的匹配方式。文档侧则不使用指令输入，从而使文档向量可在多任务间复用。

2. 二阶段训练：逐步建立模型通用表征能力，支持不同尺寸向量

预训练大模型面向生成任务，其目标是基于隐层表示，预测下一个 token，而向量模型是面向表征任务，其目标是基于隐层表示进行相似度计算。为了将大模型改造成为向量模型，团队采用二阶段训练，逐步建立模型的通用表征能力。

第一阶段：让模型充分建模不同文本匹配模式

我们使用无监督数据进行预微调（pre-finetune），通过大量数据进行对比学习，将单向 Attention 的生成模型改造成为双向 Attention 的编码模型，并让模型充分建模各种文本匹配模式。

这些数据形式均为（查询文本，相关文本）对，包含网页标题-段落，QA 平台问题-答案，论文标题-摘要等各种形式。我们使用标准的 InfoNCE loss：

请到「今天看啥」查看全文

推荐文章

字节跳动技术团队 · 远程访问代理+内网穿透：火山引擎边缘网关助力自部署模型公网调用与全链路管控

7 小时前

字节跳动技术团队 · 稀土掘金 x Trae 夏日寻宝之旅开启：做任务得积分兑大疆pocket3、Apple watch等豪礼

7 小时前

19楼 · 老公长得丑不要紧，怀孕时我用了美国人的方法生出了混血儿一样的超萌大眼娃

8 年前

蒲公英Ouryao · 微生物实验室洁净级别疑问

7 年前

手艺门 · 这款毛巾用全国最好的棉花，被G20选用，给你最贴心的呵护

7 年前

刑侦案审 · 以先进理念和科学方法深化管党治党

7 年前

北京Yojo幼儿园联盟 · 踌躇满志，再创传奇——Yojo联盟中心召开2018年第一次工作会议

7 年前

移动版

51好读 - 微信公众号文章