专栏名称: 字节跳动技术团队
字节跳动的技术实践分享
目录
相关文章推荐
高可用架构  ·  AIGC浪潮下的技术盛宴|第12届GIAC开 ... ·  2 小时前  
高可用架构  ·  微信读书后台架构演进之路 ·  昨天  
架构师之路  ·  全球软件工程技术大会,送福利! ·  昨天  
字节跳动技术团队  ·  IJCAI 25 | ... ·  昨天  
架构师之路  ·  美团的童鞋,有个问题麻烦您帮忙看一下... ·  2 天前  
51好读  ›  专栏  ›  字节跳动技术团队

豆包文生图技术报告发布!数据处理、预训练、RLHF全流程公开

字节跳动技术团队  · 公众号  · 架构  · 2025-03-16 16:36

正文

请到「今天看啥」查看全文


中文综合能力同样突出,其生成与渲染文字可用率达 78%,完美响应率为 63%,高于业界目前其他模型。
图片
注:面向中文提示词,Seedream 2.0 在不同维度上的表现。本图各维度数据以最佳指标为参照系,已进行归一化调整。
以下将从数据预处理、预训练、后训练维度介绍模型技术细节。

1. 深度融合知识的数据预处理框架

生成式 AI 技术,正从规模至上的 “暴力美学” ,向满足特定要求的 “精准智能” 转变,与之同步,数据预处理也演变为复杂的系统工程。
面对百亿量级的中英多模态数据,Seedream 2.0 团队构建了以 “知识融合” 为核心的预处理框架,从以下三个方面实现技术突破。
  • 四维数据架构,实现质量与知识的动态平衡
传统图像生成模型训练数据筛选常面临 “质量-规模” 的两难抉择,数据量级是模型能力的基础,但大规模数据构建,往往伴随质量下滑,进而影响模型表现。
为此,团队创新设计了四维拓扑网络,突破单一模态限制。该架构包含四个数据层:
1)优质数据层: 精选高分辨率、知识密度强的数据(如科学图解、艺术创作),奠定质量基础;
2)分布维持层: 采用双层级降采样策略,从数据源维度对头部平台等比降维,从语义维度通过 10 万级细粒度聚类维持多样性;
3)知识注入层: 构建 3 万+ 名词和 2000+ 动词分类体系,结合百亿级跨模态检索,为数据注入文化特征;
4)定向增强层: 建立 “缺陷发现-数据补充-效果验证” 闭环,优化动作序列、反现实生成等场景。
这一架构有效平衡了数据质量与知识多样性,为模型训练提供坚实的数据支撑。
图片
  • 智能标注引擎:三级认知进化
传统标注的 Caption 系统受单模态理解局限,对图像内容描述不够全面精准。团队在其基础上,实现了智能标注引擎的三级认知进化,提升模型理解、识别能力。
首先,构建分层描述体系,通过短、长和特殊场景 Caption 结合,实现多维度、多层级精准图片描述,既能捕捉图像核心内容,又能提供丰富细节与艺术解释。
其次,建立文化专有名词映射库,实现跨语言对齐,将中英文生成质量差异压缩至 2% 以内,提升模型在多语言环境下表现。
最后,引入动态质检机制,利用 LLM 进行预筛选,通过 Badcase 驱动 prompt 模板迭代,优化描述质量,确保数据质量与可靠性。






请到「今天看啥」查看全文