主要观点总结
本文主要介绍了GPT-4o在图像生成方面的能力,包括生成与真实照片难以区分的图片,以及通过提示词生成特定风格或场景的图片。同时,文章也讨论了GPT-4o如何模拟真实摄影中的瑕疵,如模糊、过曝等,使得生成的图片更具真实感。此外,文章还涉及了AI图像生成技术的原理,以及如何区分AI生成内容和非AI生成内容的方法。
关键观点总结
关键观点1: GPT-4o的图像生成能力
GPT-4o能够根据提示词生成逼真图片,涵盖多种风格和场景。其生成的图片可以模拟真实摄影中的瑕疵,如模糊、过曝等,增加了真实感。
关键观点2: AI图像生成技术的原理
AI图像生成技术通过学习大量真实图片的样本,模拟真实摄影中的瑕疵,从而生成逼真的图片。自回归模型是其中一种逐格构建图像的方式,非常依赖于局部上下文之间的合理性。
关键观点3: 区分AI生成内容和非AI生成内容的方法
厂商如OpenAI会为AI生成的图像添加水印或元数据标准,用户可以通过特定算法检测。此外,观察图像的细节和风格也是区分AI生成内容和非AI生成内容的一种手段。
关键观点4: 文章的启示
文章让我们思考技术发展与对真实感追求之间的关系,以及如何在AI图像生成中平衡技术和艺术。
正文
举个例子,下面这张阳光洒进屋里的照片,木地板的细节稍显破绽,但灰尘、绒毛、阳光洒下的斑驳过曝感,都营造出一种真实的自然氛围。
以至于用网友的调侃来说,「
这张照片看起来像是我从我奶奶的老相机里翻出来的。
」
除了在模拟物体(如风景、静物、街头场景)方面的效果尤为惊艳,比如生成的图像细节丰富、质感自然,足以以假乱真,这类提示词生成人像的水平也不容小觑。
再看这张女生躺在草地上闭目养神的照片,阳光温柔洒在脸上,闭目养神,神态松弛。如果没有前文的铺垫,你很难不相信这是朋友刚在林间草地上随手拍下的一张照片。
甚至在 GPT-4o 的加持下,你只需一句话,就能对图片「后期魔改」。原图上一秒只有一个女人,下一秒就能在她的身旁凭空出现一位穿着印有「我的妻子不知道我在这里」T 恤的丈夫。
模型倾向于生成训练数据中最常见、最「安全」的变体,自然而然就会导致某种程度的视觉同质化。
网友发现用这段提示词生成汽车时,不指明品牌的情况下,生成的车几乎都长一个样,一眼看去毫无个性。
生成自拍女性图像时,如果没有设定特定身份、五官、服装,面部五官也常常「撞脸」。
只需这份提示词模板,GPT-4o 也能生成「拍不出来」的故事感?
细看上面这些照片,不难发现它们几乎拥有一种
「修不出来」的故事感
。而
没有参数加持,也不靠后期修图,
CCD 相机同样借此翻红。
前不久,「iPhone 5s 是 CCD 平替」的话题登上了热搜,也让这类审美趋势再次走进了大众视野。
那么能否用 GPT-4o 生成更具 CCD 风格的照片?
我们做了一些尝试,并总结出几条实用的小技巧:
使用名人形象,模型训练数据更丰富,还原度更高,更有真实感。
素人形象的一致性较弱,属于「像又不像」,细看总有点违和。
调整图片过程中,容易出现面部细节或背景元素的变形。
提示词中加入 CCD 相机型号,能增强图像对应的氛围与复古感。
[人物描述],穿着[服装描述],[姿势/动作],[场景位置],[光线描述],[背景元素],使用[CCD 相机型号]拍摄,开启闪光灯,人物[清晰/明亮],背景[昏暗/模糊],颗粒感,[色调描述],[怀旧感/年代感],[风格类型]