专栏名称: 美团技术团队
10000+工程师,如何支撑中国领先的生活服务电子商务平台?数亿消费者、数百万商户、2000多个行业、几千亿交易额背后是哪些技术在支撑?这里是美团、大众点评、美团外卖、美团配送、美团优选等技术团队的对外窗口。
目录
相关文章推荐
字节跳动技术团队  ·  字节跳动技术副总裁洪定坤:TRAE 想做 ... ·  18 小时前  
java1234  ·  跟阿里P9学 画架构图,永久免费了 ·  昨天  
java1234  ·  跟阿里P9学 画架构图,永久免费了 ·  昨天  
字节跳动技术团队  ·  豆包大模型升级1.6版,视频模型上新 ·  昨天  
高可用架构  ·  4 年融资 1 ... ·  2 天前  
51好读  ›  专栏  ›  美团技术团队

上海交大-美团联合论文:长Prompt对齐问题也能评估了 | CVPR 2025

美团技术团队  · 公众号  · 架构  · 2025-03-27 19:58

正文

请到「今天看啥」查看全文


数据集Q-Eval-100K开启了文本到视觉内容评估的新时代,同时Q-Eval-Score提供一个开源的较为准确客观的AIGC打分框架,可用于对AIGC图片视频生成类模型的评估。
Q-Eval-100K数据集共计包含了100K的AIGC生成数据(其中包含60k的AIGC图片以及40k的AIGC视频)。
接下来,将对Q-Eval-100K数据集与Q-Eval-Score评估框架进行详细介绍。
数据集构建
在数据集构建上,团队确保遵循三个原则:
1) 保证数据多样性。 为了收集到接近真实场景下多样性的数据集,团队从三个大的维度出发构建了对应的prompt集,这三个大的维度可以被划分为实体生成( people,objects,animals,etc. ),实体属性生成( clothing,color,material,etc. ),交叉能力项( backrgound,spatialrelationship,etc. ),通过对于不同维度数据的比例控制,确保了prompt数据的多样性。同时,团队还使用了当前SOTA开源或者API的AIGC模型进行数据生成,从而确保了生成数据的高质量。这些AIGC模型包括FLUX,Lumina-T2X,PixArt,StableDiffusion 3,CogVideoX,Runway GEN-3,Kling等。
2) 高质量的数据标注。 团队招募了200多名经过培训的人员进行人工打分标注,从这些人员手中收集了超过960k条相关数据的打分信息。经过人工严格的筛选和过滤后,最终得到了这100k AIGC数据以及其对应的一致性/质量标注数据。通过这样的方式,可以确保标注数据与人类偏好的高度一致性,从而提升了Q-Eval-Score评估框架的一致性与泛化能力。
3) 视觉质量和文本一致性解耦标注。 团队观察到当前对于AIGC模型质量的研判主要聚焦于视觉质量和文本一致性两个方面,因此,在数据集构建的过程当中将两个维度拆分开标注,以确保Q-Eval-Score可以同时对这两个维度进行评估。如下图所示,在统计了多个AIGC模型的视觉质量和文本一致性mos分后,团队发现两个维度上模型的表现存在一定的差异性,因此也说明了将两个维度解耦的必要性。






请到「今天看啥」查看全文