专栏名称: DeepTech深科技
“DeepTech深科技”是与麻省理工科技评论官方独家合作的一个新科技内容品牌。我们专注于关注三个方面:1、基于科学的发现;2、真正的科技创新;3、深科技应用的创新。
目录
相关文章推荐
新浪科技  ·  【#蜜雪冰城称累晕员工是低血糖#】6月7日, ... ·  21 小时前  
新浪科技  ·  【独家 | ... ·  2 天前  
51好读  ›  专栏  ›  DeepTech深科技

大模型装进口袋:手机本地运行9倍速秒出高清图,质量比肩顶级模型

DeepTech深科技  · 公众号  · 科技媒体  · 2025-03-31 21:46

正文

请到「今天看啥」查看全文



正如这篇研究论文的共同第一作者、麻省理工学院 Haotian Tang 博士所说的那样,“想象你在画一幅风景画,如果直接一次涂满整个画布,效果可能并不会好;但若是先勾勒出大致轮廓先勾勒出大致轮廓,然后再用小笔触精修逐步完善,最终的作品会显得更加精致。”而这,也是 HART 创作背后的基本理念。


研究人员表示,HART 有着非常广泛的应用前景,比如,可以帮助机器人学习如何完成复杂的现实世界任务,亦或是辅助设计师为电子游戏打造栩栩如生的游戏场景。


这项新研究是由来自麻省理工学院、清华大学和英伟达的一支多学科研究团队共同完成的,其中包括 Haotian Tang 博士和清华大学的本科生 Yecheng Wu(两位是论文的共同第一作者)、麻省理工学院电子工程与计算机科学系副教授韩松等。


他们的这项研究成果即将在国际学习表征会议(ICLR)上展示。这项研究工作得到了 MIT-IBM Watson AI 实验室、MIT 和 Amazon 科学中心、MIT AI 硬件项目以及美国国家科学基金会的部分资助。此外,研究中用于训练该模型的 GPU 基础设施由英伟达捐赠。


取两者之所长


在生成式 AI 领域,以 Stable Diffusion 和 DALL-E 为代表的扩散模型凭借其卓越的图像生成质量,已成为当前计算机视觉领域的重要技术。


这些模型通过模拟物理扩散过程的反向推导,拥有精密的多步迭代去噪机制,即通过一种“迭代过程”生成图像。在这个过程中,模型会预测并消除图像中每个像素上的随机噪声。这个“去噪”过程需要多次重复进行,直到最终生成一张完全无噪点的新图像。


由于扩散模型在每一步都需要对整个图像的所有像素进行处理,并且可能需要 30 步甚至更多的步骤才能完成这一过程,因此这种方法既耗时又耗费大量计算资源。







请到「今天看啥」查看全文