主要观点总结
字节跳动Seed团队发布了Seedream 3.0技术报告,这是一个高分辨率图像生成基础模型,相比上一代版本性能有大幅提升。报告详细介绍了Seedream 3.0的四大亮点:原生高分辨率输出、创作效率提升、小字排版优化及美感结构提升。该模型在数据采集与处理、预训练、后训练、推理加速等方面的技术实现也备受关注。此外,模型在海报创作方面的表现获得了认可,未来团队还计划进行更高效的结构设计、提升模型智能化水平等。
关键观点总结
关键观点1: 原生高分辨率输出
Seedream 3.0可以直接输出2K分辨率图像,满足从手机端到巨幅海报场景的视觉需求。
关键观点2: 创作效率提升
面向海报设计、视觉创意等需求,Seedream 3.0可实现3秒左右快速生成高品质图像,实现“所想即所得”的实时创意交互。
关键观点3: 小字排版优化
Seedream 3.0优化了小字体高保真生成、多行文本语义排版等,让AI具备商业级图文设计能力。
关键观点4: 美感与结构提升
Seedream 3.0在指令遵循、人体和物体结构改善、出图AI感降低等方面实现突破,实现从“看得清”到“有感染力”的审美提升。
关键观点5: 技术实现方法
介绍了Seedream 3.0在数据采集与处理、预训练、后训练、推理加速等方面的技术实现方法,包括数据优化、预训练聚焦、后训练阶段的美感描述和奖励模型拓展以及推理加速策略等。
正文
在权威竞技场 Artificial Analysis 上,Seedream 3.0 与 GPT-4o、Imagen 3
、Midjourney v6.1、FLUX 1.1 Pro、Ideogram 3.0 等文生图模型同台竞技,
在近期打榜中,一度排名第一。
Artificial Analysis 排名(截止 4 月 15 日下午)
值得一提的是,Seedream 3.0 在海报设计与创意生成方面较为突出,贴
合了设计师群体的日常工作需求。
本文将从数据采集与处理、预训练、后训练、推理加速等方面,介绍 Seedream 3.0 的技术实现方法。
1. 数据优化:缺陷感知扩充数据集,并改进数据分布
对生成式 AI,大规模的高质量训练数据必不可少。Seedream 3.0 从以下三个方面优化了数据采集和预处理流程:
Seedream 2.0 中为了保证训练数据的质量,采用了相对来说比较保守的数据筛选策略,去除了大量具有微小缺陷(水印、字幕、马赛克等)的图像。在 Seedream 3.0 中,团队采用了全新的缺陷感知训练策略,通过自研检测器精准定位缺陷位置和面积,将缺陷较小的图像保留,并在训练时通过隐空间掩码来避免图像缺陷对损失函数的影响。这样的设计使得有效数据集扩充超过 20%,且依旧保障了模型的稳定训练。
传统的文生图数据集的构建方法通常面临数据分布不均衡的挑战。为了解决这个问题,团队提出了视觉语义二维协同的采样策略:在视觉方面,采用层次化聚类方法来保证不同视觉形态的平衡;在语义方面,采用 TF-IDF (词频-逆文档频率) 技术有效解决文本描述的长尾分布,通过在视觉和语义两个方面的协同优化,大幅提升了视觉模式语义概念的均衡性。