专栏名称: 易安说AI
分享业务架构、技术架构、系统设计方案,以及微服务架构源码,提供业务场景答疑
目录
相关文章推荐
刘晓光恶魔奶爸  ·  怎么感觉今年就业市场崩溃了。。。 ·  3 小时前  
清晨朗读会  ·  渊源直播 ·  昨天  
清晨朗读会  ·  清晨朗读3305:Harvesting ... ·  2 天前  
刘晓光恶魔奶爸  ·  照着做,1年后彻底摆脱打工! ·  3 天前  
51好读  ›  专栏  ›  易安说AI

Gemini 2.0 图像编辑,拜拜嘞PS!

易安说AI  · 公众号  ·  · 2025-03-13 23:57

正文

请到「今天看啥」查看全文


比如这是一张普通的咖啡杯照片,我想把它变成骨瓷材质,再加上金边装饰。说完这句话,几秒钟后,我的普通咖啡杯就焕然一新。 又或者,这是一份简单的手绘菜单草图。我只需说:"请根据这张草图生成一份精美的咖啡店菜单",Gemini立刻就能创建出一份精美的成品菜单,保留我的基本布局但大幅提升了质感。 甚至可以实现文字修改。比如一张产品包装照片,想把上面的品牌名称改掉,一句指令就能完成。

技术原理简析

得益于Gemini 2.0强大的多模态能力,它实现了类似于GPT-4o的能力突破。如果说GPT-4o是语音端到端,那么Gemini 2.0则是图片端到端,将图像理解和生成无缝集成。

虽然生成的图片质量还达不到Midjourney或Flux的水平,泛化能力也有待提升,但作为一个内置于多模态模型中的功能,已经相当令人惊艳。这种"言出法随"的能力,在多模态大模型中尤为重要。

实际使用指南

想要亲自体验这一功能非常简单:







请到「今天看啥」查看全文