正文
Prompt 设计简化、结构单一
:许多 benchmark 中的大多数 prompt 长度极短,而且大多为模板化句式(如 “a photo of a [object] with [attribute]”),难以反映真实使用场景中复杂需求的处理能力。
语义多样性严重不足
:以 GenAI Bench 为例,其 prompt 集中度极高,只有不到 30% 的 prompts 是语义独立的(semantic unique),导致模型评测分数逐渐“内卷收敛”,难以区分强模型和弱模型的能力差异。
缺乏真实场景长指令
:现实中,用户往往会输入多属性、带有条件关系和上下文逻辑的自然语言描述。而现有 benchmark 极少覆盖这类“设计师风格”或“专业用户需求”指令,导致模型训练和评测脱节。
评测方法粗糙且与人类直觉不符
:目前大多数 benchmark 仍依赖 CLIP 相似度(CLIPScore 或类似变体)进行自动评测。这类评测手段仅能判断“是否与文本概念大致对齐”,却无法评估图像中每个细节是否精准反映用户意图(例如无法区分 “a boy under a bee” 和 “a bee under a boy”),也无法体现人类真实偏好。
现有Bench的不足之处
Prompt 设计的不足:简化、结构单一,语义多样性与文法多样性不足,且缺乏真实场景长指令:
长度偏短且固定(右图):常见 bench 中的绝大多数 prompt 都不大于 30 个单词,这和现实场景中 T2I 模型所面对的 prompt 长度 gap 很大;
缺乏真实使用场景下的长指令(左下图):常见 Bench 的最长 prompt 也是较为简单的句子,TIIF-Bench 包含了许多从 AIGC 论坛上手工收集的复杂、真实用户 prompt;
语义重复性高(左上图):我们使用 CLIP 提取了不同 Bench 中所有 prompts 的文本语义特征并计算了 consine 相似度,以 0.85 为 threshold,发现 GenAI Bench 中只有不到 30% 的 prompt 是 semantic unique 的,Compbench++ 中只有不到 60%,而 TIIF-Bench 中 semantic unique prompts 大于 90%;
文法复杂度低(中间图):我们将不同 Bench 的所有 prompts 的 CLIP 文本语义特征进行了 t-SNE 降维,TIIF-Bench 的 range 范围最大;
然而实验表明:即使核心语义相同,不同长度的 prompt 对 T2I model 有很大影响:
现有的 bench 完全缺乏这一维度的考量!
评测方法的不足:粗糙且与人类直觉不符
目前大多数 benchmark 仍依赖 CLIP 相似度(CLIPScore 或类似变体)和其它一些专家模型进行自动评测:
然而 CLIP 无法评估图像中每个细节是否精准反映用户意图(例如无法区分 “a boy under a bee” 和 “a bee under a boy”),也无法体现人类真实偏好 ⚠️。UNIDet 等开集检测模型则无法对现代 T2I model 生成的复杂图像进行有效检测。
TIIF-Bench 的构建
我们设计了一个
多阶段的 prompt 生成流程
:
概念池构建(Concept Pool Construction)
属性组合(Attribute Composition)