专栏名称: 大数据文摘

普及数据思维，传播数据文化

相关文章推荐

数据派THU · ICML 2025 | ... · 昨天

数据派THU · 基于马尔可夫链的状态转换，用概率模型预测股市走势 · 昨天

数据派THU · 【伯克利博士论文】用于机器人操作的多模态感知 ... · 昨天

阿里云大数据AI平台 · 【5月重点功能发布】阿里云大数据+ AI ... · 16 小时前

IDC咨询 · Data+AI市场快速演进，数据管理分析与G ... · 2 天前

51好读 › 专栏 › 大数据文摘

生成很强，推理很弱：GPT-4o的视觉短板

大数据文摘 · 公众号 · 大数据 · 2025-04-21 12:00

正文

请到「今天看啥」查看全文

GPT-4o在图像生成时，还是字面理解指令 ，全局重定义、上文设定根本进不到它的“画画脑子”里。

你想让它“灵活变通”，它却只会“忠实执行表面”，这跟人类的小聪明比还差了不少。

02. 图像编辑：浅层语义理解暴露

第二部分测试更有挑战性，研究员让GPT-4o动手编辑图片。

比如，

“只改水里的马倒影为狮子，别动马本体。”

结果AI一出手，马和倒影全变了。

再比如，

“只删掉画面里坐着的人。”

结果站着的背景人也被一锅端了。

这些例子直接暴露了一个问题：

GPT-4o对于“局部修改”“语义限定”这类任务，根本把握不住分寸。

它没法精确地区分“倒影”与“实体”、“坐着”与“站着”，操作经常“过犹不及”，动错地方。

说白了，AI的图像编辑理解，远没达到“人类看图、理解场景”的精细度。

请到「今天看啥」查看全文

推荐文章

数据派THU · ICML 2025 | 大模型深度思考新范式：交替「推理-擦除」解决所有可计算问题

昨天

数据派THU · 基于马尔可夫链的状态转换，用概率模型预测股市走势

昨天

数据派THU · 【伯克利博士论文】用于机器人操作的多模态感知：融合视觉、语言与触觉

昨天

阿里云大数据AI平台 · 【5月重点功能发布】阿里云大数据+ AI 一体化平台

16 小时前

阿里云大数据AI平台 · 【5月重点功能发布】阿里云大数据+ AI 一体化平台

16 小时前

IDC咨询 · Data+AI市场快速演进，数据管理分析与GenAI发展趋势及最佳实践发布

2 天前

IDC咨询 · Data+AI市场快速演进，数据管理分析与GenAI发展趋势及最佳实践发布

2 天前

军情战评 · 蔡英文声称：美对台持续军售是台海“维持现状”关键

8 年前

日本通 · 耗费10年光阴！原来回转寿司还有这样的历史

8 年前

今日闵行 · 冬病夏治正当时！哪里治，看这里！闵行多家医院可预约

7 年前

三头六臂跨境电商联盟 · 今日福利 |：一入外贸深似海！哦，多么痛的领悟~

7 年前

金融行业网 · 中国人口迁移：这些城市房价还会涨！？

7 年前