正文
2.AIGC 技术:从图片到 3D 模型
图片生成已经取得了突破性的效果,但如果这些成果能够进一步优化应用到更多领域,将有可能实现更大价值。我们也看到一些细分领域中的探索成果,比如经由对场景的理解,通过不同的数据集加入和调参,可以实现对图片生成更好的控制,而不仅是通过文字的不断试错来获得更优结果。
2.1 设计意向图生成
2019 年初,用 GANs 生成的「这个 XX 不存在」系列在海外获得大量关注,在国内我们也看到企业推出了在细分领域的成果。而该团队也于 22 年 8 月实验性的在手机端推出了「AI 创意库」,只需要输入一句话,对话机器人就能在一分钟内快速理解语义,生成多张效果细腻贴近建筑概念方案的意向图。在此之上,更是可以通过输入一张已有的图片,修改部分描述的关键字,「AI 创意库」即可生成一系列的衍生图片,辅助设计师在日常创作中寻找灵感。
小库科技「这个建筑不存在」,GANs 模型生成建筑意象图及迭代过程
左图:小库「AI 创意库」生成,触发语句 Louis Kahn 风格,依山傍水的小型博物馆;右图:小库「AI 创意库」生成,基于左图 Louis Kahn 风格图片,完成风格切换至 Le Corbusier
为了使得「AI 创意库」的效果更优,团队做了一些新的探索:由于已有的算法和模型更多聚集在通用互联网素材上,建筑相关的图片、形容及风格的数据储备在专业程度显然是不够的。这里采取了一种针对建筑相关词汇的特殊标识,组成一个微调的先验数据集并将该数据集融合训练,实现模型增强。通过建筑专业领域增强的新模型,形成了面向建筑行业专属的 AI 创意库,针对建筑类描述短句,测试集优品率相比原有模型提升了 13.6% 之多。
Google Dreambooth Fine-Tuning 算法示意
举个例子,当输入一张博物馆图片及一个词汇 "Zaha Hadid(过世的全球著名女建筑师)" 的时候,模型能够理解需要将博物馆的建筑风格或特征往 Zaha Hadid 的作品靠拢,而不是在博物馆中增加一个 Zaha Hadid 的人物或画像,抑或是在 AI 世界里创作一个 Zaha Hadid 的卡通画像 —— 这往往是通用模型会返回的结果之一。
经过微调后的建筑模型,小库「AI 创意库」能充分理解 “Zaha Hadid” 这个特殊词汇隐含意思
2.2 3D 模型生成
二维的图片虽然精彩,但在产业应用中暂时还只是停留在 “意向图库” 的作用,未来如果要成为可以精准表达设计的成果,需要向 3D 和更高信息维度去迈进。
在 2020 年 AIGC 没有现在这么成熟的时候,上述团队就在探索如何用 AI 生成 3D 模型,并在同济大学 DigitalFUTURES 工作坊教学中,公开了其在研发中的从图形生成图像进一步生成模型的算法,能看到当时的模型效果并不太理想,有价值的是实现了图形 - 图像 - 模型的联动。
2020 同济大学 DigitalFUTURES 工作坊小库教学团队成果,手绘图形生成图像进而生成模型
第二年在同济大学 DigitalFUTURES 工作坊教学中,该团队发布了一种通过 GANs 学习卫星图与真实三维模型之间关系,将卫星图生成为真实三维模型的算法。该算法通过对卫星图上不同的图层元素进行特征学习,能大致复原出卫星图所对应的主要物体三维拉伸形体,预测不同物体投影所对应的原物体高度。当然,这种方法还存在一定的缺陷,只能在卫星图场景中使用,难以积累其他场景中同类图片与三维形体之间的关系;其次是还原的三维形体只能粗略预测高度,其他细节需要通过算法重新生成,与真实的三维模型存在较大误差,只能用于项目早期研判使用,应用场景有限。
城市三维模型分层特征提取训练示意图
2021 同济大学 DigitalFUTURES 工作坊小库教学团队成果,基于 GANS 的卫星图重建三维模型
得益于 AIGC 算法的爆发、3D 生成算法的日益成熟,我们也看到垂直类 AI 企业开始吸收更多先进的技术与思路改善其模型,并在 3D-AIGC 的路线上有了一些新的尝试方向。例如 OPENAI 推出了 Point-E 框架,该框架可以将任意二维图片通过算法预测为点云,进而通过点云去预测三维物件。
PointE 框架全过程示意图