专栏名称: 投资银行在线
投资银行在线 Investment Bank Online,一个资本与项目对接的平台,一个互联网金融的探索者和实践者。
目录
相关文章推荐
51好读  ›  专栏  ›  投资银行在线

语言图像模型大一统!Meta将Transformer和Diffusion融合,多模态AI王者登场

投资银行在线  · 公众号  · 科技投资  · 2024-08-25 12:48

主要观点总结



关键观点总结



正文

请到「今天看啥」查看全文


左右滑动查看(共四组)
左右滑动查看(共四组)
左右滑动查看(共四组)
研究者训练了一个具有U-Net编码/解码层(2×2潜在像素块)的70亿参数模型,处理相当于2T tokens的数据,其中包括1T文本语料库tokens和35亿张图像及其标注。
表9显示,Transfusion在性能上与高性能图像生成模型如DeepFloyd相当,同时超越了先前发布的模型,包括SDXL。
虽然Transfusion在SD 3后面稍显逊色,但该模型通过反向翻译利用合成图像标注,将其GenEval性能在小规模上提升了6.5%(0.433→0.498)。
此外,Transfusion模型也可以生成文本,并且其性能与在相同文本数据分布上训练的Llama模型相当。
图像编辑

以下这些,则是用微调后的70亿参数Transfusion模型编辑的图像——
左右滑动查看(共三组)






请到「今天看啥」查看全文