专栏名称: 字节跳动技术团队
字节跳动的技术实践分享
目录
相关文章推荐
甘肃公安  ·  【典型电诈案件预警丨第262期】警惕共享屏幕 ... ·  10 小时前  
甘肃公安  ·  【典型电诈案件预警丨第262期】警惕共享屏幕 ... ·  10 小时前  
大皖新闻  ·  刚刚!安徽高考作文题出炉 ·  17 小时前  
中国质量新闻网  ·  11款问题APP现在就卸载!涉及中青旅遨游旅 ... ·  昨天  
中国质量新闻网  ·  11款问题APP现在就卸载!涉及中青旅遨游旅 ... ·  昨天  
sven_shi  ·  我回答了 @衣者人从 ... ·  2 天前  
51好读  ›  专栏  ›  字节跳动技术团队

Seedream 3.0 文生图模型技术报告发布

字节跳动技术团队  · 公众号  · 架构 科技自媒体  · 2025-04-20 16:01

主要观点总结

字节跳动Seed团队发布了Seedream 3.0技术报告,这是一个高分辨率图像生成基础模型,相比上一代版本性能有大幅提升。报告详细介绍了Seedream 3.0的四大亮点:原生高分辨率输出、创作效率提升、小字排版优化及美感结构提升。该模型在数据采集与处理、预训练、后训练、推理加速等方面的技术实现也备受关注。此外,模型在海报创作方面的表现获得了认可,未来团队还计划进行更高效的结构设计、提升模型智能化水平等。

关键观点总结

关键观点1: 原生高分辨率输出

Seedream 3.0可以直接输出2K分辨率图像,满足从手机端到巨幅海报场景的视觉需求。

关键观点2: 创作效率提升

面向海报设计、视觉创意等需求,Seedream 3.0可实现3秒左右快速生成高品质图像,实现“所想即所得”的实时创意交互。

关键观点3: 小字排版优化

Seedream 3.0优化了小字体高保真生成、多行文本语义排版等,让AI具备商业级图文设计能力。

关键观点4: 美感与结构提升

Seedream 3.0在指令遵循、人体和物体结构改善、出图AI感降低等方面实现突破,实现从“看得清”到“有感染力”的审美提升。

关键观点5: 技术实现方法

介绍了Seedream 3.0在数据采集与处理、预训练、后训练、推理加速等方面的技术实现方法,包括数据优化、预训练聚焦、后训练阶段的美感描述和奖励模型拓展以及推理加速策略等。


正文

请到「今天看啥」查看全文


在权威竞技场 Artificial Analysis 上,Seedream 3.0 与 GPT-4o、Imagen 3 、Midjourney v6.1、FLUX 1.1 Pro、Ideogram 3.0 等文生图模型同台竞技, 在近期打榜中,一度排名第一。
图片 Artificial Analysis 排名(截止 4 月 15 日下午)

值得一提的是,Seedream 3.0 在海报设计与创意生成方面较为突出,贴 合了设计师群体的日常工作需求。

图片
本文将从数据采集与处理、预训练、后训练、推理加速等方面,介绍 Seedream 3.0 的技术实现方法。

1. 数据优化:缺陷感知扩充数据集,并改进数据分布
对生成式 AI,大规模的高质量训练数据必不可少。Seedream 3.0 从以下三个方面优化了数据采集和预处理流程:
  • 图像缺陷感知的训练策略,大幅提升可用数据量
Seedream 2.0 中为了保证训练数据的质量,采用了相对来说比较保守的数据筛选策略,去除了大量具有微小缺陷(水印、字幕、马赛克等)的图像。在 Seedream 3.0 中,团队采用了全新的缺陷感知训练策略,通过自研检测器精准定位缺陷位置和面积,将缺陷较小的图像保留,并在训练时通过隐空间掩码来避免图像缺陷对损失函数的影响。这样的设计使得有效数据集扩充超过 20%,且依旧保障了模型的稳定训练。
  • 视觉语义协同的采样策略,有效平衡数据分布
传统的文生图数据集的构建方法通常面临数据分布不均衡的挑战。为了解决这个问题,团队提出了视觉语义二维协同的采样策略:在视觉方面,采用层次化聚类方法来保证不同视觉形态的平衡;在语义方面,采用 TF-IDF (词频-逆文档频率) 技术有效解决文本描述的长尾分布,通过在视觉和语义两个方面的协同优化,大幅提升了视觉模式语义概念的均衡性。
  • 研发图文检索系






请到「今天看啥」查看全文