正文
AI
创业者来说,现在出来和两年前出来是一样的,因为产品形态发生了颠覆,之前的积累可能没什么价值。
陈冕:
我不认同。在我看来,认知是累加的。没有经历 1.0、2.0、3.0 时代,无法如此顺畅地想到这个过程。Manus 也是一样的,Monica 就是它的 1.0 时代。所以这个认知是在大家的摸索当中,随着技术趋势的明朗、技术路径的共识、技术能力的成熟,大家逐渐形成的共识。
Founder Park: 在 1.0、2.0、3.0 阶段,你们是如何积累有价值的经验?对业务和产品有什么帮助?
陈冕:
针对设计这个垂直领域,我们在思考一件事:AI 时代的交互范式或方式应该是什么样?大家有很多讨论,比如 Language UI、是否需要 GUI 等等,讨论非常多。在这方面,我们也有一个关键判断,
交互在不同的垂直领域和场景下,应该有所区别。
举个简单例子,我们现在面对面访谈,互相对话是个场景,有其对应的交互方式。在跟设计师聊设计,光说话可能不够,得有人在设计屏幕前指指点点,经典甲方场景。所以我们想,如果 AI 成为「人」,终局交互不能只靠对话,这是我们创业第一天就想明白的。不同垂直场景,需要不同界面和交互。
设计这种视觉传达、视觉对齐很重要,
所以需要屏幕和手势完成和视觉的对齐。
在 Lovart 产品里的体现成「画布」。Lovart 左边画布,右边对话框,就像设计跟老板/甲方对话时,旁边就是屏幕,鼠标是老板的手。基于这个点,我们思考我们应该做什么?是不是应该早点做画布?
所以我们在画布能力和工具方面做得比较早,也花了不少力气。
画布本质上可以说是屏幕,但抛开屏幕,本质上如果现在我们把所有科技的东西都去掉,如果人类回归到笔墨纸砚,画布就是桌子。现在我们两个人在做设计,甲方站在你旁边告诉你要做什么,你把作品放到桌子上,ta 对着桌子指指点点。所以桌子上不应该是 ComfyUI 或者之前的一些工作流产品。
桌子上是作品,能够拖拽指点,这是最原生的交互方式或者界面。虽然工作流产品看着像在 canvas 上,但实际不一样。我们的 canvas 本质是桌子,盛放作品,最自然的交互就是指着作品说修改。这是我们垂直领域最初认知,
所以我们才更早积累画布能力和 Edit。
来自 Founder Park 同事的实际体验
Founder Park: 还原设计这件事最原始的样子,这是一个很有意思的思考,但它如何通向「有用」的
AI
产品?
陈冕:
回到你前边问的问题,我们为什么不 for everyone?
去想最原始的样子,人在桌子上做三件事:涂抹、裁切、拼贴。AI 诞生后,像旁边多了个甲方(用户)指挥 AI。理想情况是甲方指挥 AI 完成所有任务,这时才能 for everyone。但这需要模型能力很强。如果不够强,就会出现用户说「你做不好,我自己来」的中间状态。
所以你会发现,
桌子(画布)需要在,桌子旁的传统工具箱(Edit)也要在
。因为用户有时发现 AI 做不好,就会推开说「我来」。所以现在本质是 Agent + 桌子 + Edit。桌子放 AI 产物、支持修改,也承载传统 Edit 能力,那能力在桌子旁的工具箱。旁边多出的那个人就是对话框。所以对话框、桌子、工具箱,这是合理且一直存在的形态,也是我们想做的。
那设计何时能 for everyone?
当模型智能强大到不再需要那个工具箱,用户通过对话、指点就能完全满意,不会自己上手时,就可以 for everyone 了。
但 Edit 能力是面向专业消费者的,普通人用不了工具箱。所以工具箱还在,设计师就会还在。当工具箱不需要了,没有用户自己上手的瞬间,设计师可能会失业。但设计师的核心价值——创意、对人类共鸣的洞察,AI 目前无法取代。
AGI 也许能取代,但这对社会的冲击会很大。至少现在,我认为 AI 只能模拟理解感受,无法真正洞察人类共鸣的情况,所以艺术家/设计师的意义就在此。产品能 for everyone 是未来的事,这是我们现在的认知。所以我们现在不想做一个 for everyone 的产品,而是做 for Prosumer 的产品。我们希望成为设计师的朋友,因为我们认为最终设计师的本源是创意,在于对人类潜意识里对共鸣的渴望的洞察,这是他们不可替代的价值。所以我们做的其他事情,是希望能让他们 focus 在创意之上,把其他琐事交给 AI,给他们插上翅膀。我认为这是 AI 在现阶段的意义。
Founder Park:
图像领域一直有一个艺术相关的问题,比如更好更高效的
AI
工具,是否在加速前沿艺术风格成为大众审美的这个进程?比如很经典的,梵高的作品直到他过世后才受到认可。
陈冕:
我觉得这不一定会发生。一个艺术风格,艺术家常常在其身后才被广泛推崇,有时是因为他们对群体感受和潜意识的洞察过于超前,这需要整个社会周期性的变化才能跟上。这种变化是深层的,与社会发展密切相关,我认为不会因一个工具的出现而根本改变。我们现在做的,是把工具还原到它应有的形态。
在不同的时代,工具形态是不同的。在纸媒时代,没有电脑,桌面摆满了手稿,这是当时的「桌子」。在电脑时代,设计师亲自动手,Photoshop 带着画布和各种工具出现,那就像当年的桌子。而现在,当人越来越成为甲方,AI 成为乙方时,这个「桌子」应该是什么样子?这是我们非常感兴趣,也是我们从 day one 就在思考的问题。Lovart 是我们目前给出的答案。
Founder Park: 现阶段这款产品,您提到它并非百分之百完美,它欠缺哪些方面?
陈冕:
欠缺的地方很多。
Agent 的能力不够强,我们期待基础模型能更强大,这样我们的产品也会更厉害。我们需要 leverage base model,而不是被其取代,这是很重要的思考。
你的核心价值应该在基础模型之外,才能真正利用它。
如果你的工作只是为基础模型现阶段的不成熟打补丁,那不是利用,是在对抗,这样做是「找死」。
当然,产品自身也存在许多 bug。最近因为关注度高,很多人反馈邀请码问题,这确实是我们的不足。核心原因有两个:首先,我们采取的是小范围用户先行体验、收集 bug、迭代后再开放下一批的策略。在 bug 修复完成前,不宜大规模开放,这是最主要的原因。
其次,坦白说,我们也不可能无限量地发放邀请码。很多用户也能理解,这涉及较高的成本。目前我们的邀请码是纯免费使用,确保用户体验,但这背后是有运营成本的。好在图像领域,token 成本问题相对其他领域还没那么严重。所以我们目前的成本并不是非常高,但确实也不低。我们非常有信心能尽快实现公开使用。
开发 Agent 的过程非常有趣,AI 真的有自己的「想法」。正如 Manus 主张的「less structure, more intelligence」,我们非常认同这一点。因为在与 Agent 调试时,你不能把指令说得过于死板,那样反而会限制其智能。这和人一样,只告诉它按步骤 ABCD 执行,它反而可能变笨。你需要告诉它目标是什么,它在中间过程会展现自己的思考。比如,我们有时会告诉它,用某个基础模型的图像工具换脸效果不好,应该改用我们内部专门用于真人 face ID 的工具。但有时它并不这么认为,它会有自己的判断。