专栏名称: PaperWeekly

PaperWeekly是一个推荐、解读、讨论和报道人工智能前沿论文成果的学术平台，致力于让国内外优秀科研工作得到更为广泛的传播和认可。社区：http://paperweek.ly | 微博：@PaperWeekly

你的T2I模型真的看懂了你的Prompt吗？TIIF-Bench来了次摸底评测！

PaperWeekly · 公众号 · 科研 · 2025-06-18 21:32

正文

请到「今天看啥」查看全文

Prompt 设计简化、结构单一：许多 benchmark 中的大多数 prompt 长度极短，而且大多为模板化句式（如 “a photo of a [object] with [attribute]”），难以反映真实使用场景中复杂需求的处理能力。

语义多样性严重不足：以 GenAI Bench 为例，其 prompt 集中度极高，只有不到 30% 的 prompts 是语义独立的（semantic unique），导致模型评测分数逐渐“内卷收敛”，难以区分强模型和弱模型的能力差异。

缺乏真实场景长指令：现实中，用户往往会输入多属性、带有条件关系和上下文逻辑的自然语言描述。而现有 benchmark 极少覆盖这类“设计师风格”或“专业用户需求”指令，导致模型训练和评测脱节。

评测方法粗糙且与人类直觉不符：目前大多数 benchmark 仍依赖 CLIP 相似度（CLIPScore 或类似变体）进行自动评测。这类评测手段仅能判断“是否与文本概念大致对齐”，却无法评估图像中每个细节是否精准反映用户意图（例如无法区分 “a boy under a bee” 和 “a bee under a boy”），也无法体现人类真实偏好。

现有Bench的不足之处

Prompt 设计的不足：简化、结构单一，语义多样性与文法多样性不足，且缺乏真实场景长指令：

长度偏短且固定（右图）：常见 bench 中的绝大多数 prompt 都不大于 30 个单词，这和现实场景中 T2I 模型所面对的 prompt 长度 gap 很大；

缺乏真实使用场景下的长指令（左下图）：常见 Bench 的最长 prompt 也是较为简单的句子，TIIF-Bench 包含了许多从 AIGC 论坛上手工收集的复杂、真实用户 prompt；

语义重复性高（左上图）：我们使用 CLIP 提取了不同 Bench 中所有 prompts 的文本语义特征并计算了 consine 相似度，以 0.85 为 threshold，发现 GenAI Bench 中只有不到 30% 的 prompt 是 semantic unique 的，Compbench++ 中只有不到 60%，而 TIIF-Bench 中 semantic unique prompts 大于 90%；

文法复杂度低（中间图）：我们将不同 Bench 的所有 prompts 的 CLIP 文本语义特征进行了 t-SNE 降维，TIIF-Bench 的 range 范围最大；

然而实验表明：即使核心语义相同，不同长度的 prompt 对 T2I model 有很大影响：

现有的 bench 完全缺乏这一维度的考量！

评测方法的不足：粗糙且与人类直觉不符

目前大多数 benchmark 仍依赖 CLIP 相似度（CLIPScore 或类似变体）和其它一些专家模型进行自动评测：

然而 CLIP 无法评估图像中每个细节是否精准反映用户意图（例如无法区分 “a boy under a bee” 和 “a bee under a boy”），也无法体现人类真实偏好 ⚠️。UNIDet 等开集检测模型则无法对现代 T2I model 生成的复杂图像进行有效检测。

TIIF-Bench 的构建

我们设计了一个多阶段的 prompt 生成流程：

概念池构建（Concept Pool Construction）

首先对现有 benchmark 的 prompt 进行语义分组，借助 GPT-4o 自动提取核心的“物体–属性/关系”结构。
最终我们构建了 10 个概念维度，并将其划分为三大类：属性类（Attribute）、关系类（Relation）和推理类（Reasoning），详见：

属性组合（Attribute Composition）

从上述概念池中采样属性组合，使用 GPT-4o 自动生成自然语言指令。我们设计了