专栏名称: 机器之心
专业的人工智能媒体和产业服务平台
目录
相关文章推荐
51好读  ›  专栏  ›  机器之心

85倍速度碾压:苹果开源FastVLM,能在iphone直接运行的视觉语言模型

机器之心  · 公众号  · AI  · 2025-05-17 00:31

正文

请到「今天看啥」查看全文


体积、速度 这两大问题,速度快到相对同类模型, 首个 token 输出速度提升 85 倍


该模型引入了一种新型混合视觉编码器 FastViTHD ,融合了卷积层和 Transformer 模块,配合多尺度池化和下采样技术,把图片处理所需的「视觉 token」数量砍到极低 —— 比传统 ViT 少 16 倍,比 FastViT 少 4 倍。它以卓越的速度和兼容性,极大地提升了 AI 与图像之间的用户体验能力。


FastVLM 模型不仅可以用于给模型自动生成陈述、回答「这张图是什么」的问题、分析图中的数据或对象等途径,还兼容主流 LLM 并轻松适配 iOS/Mac 生态,特别适合落地在边缘设备、端侧 AI 应用和实时图文任务场景。


目前,FastVLM 模型主要推出 0.5B、1.5B、7B 三个不同参数量级的版本,每个版本均有 stage2 和 stage3 两阶段微调权重,用户可以根据自身需求灵活选择。


苹果团队在发布的论文中详细阐述了更加具体的技术细节和优化路径。


image.png


  • 论文标题: FastVLM: Efficient Vision Encoding for Vision Language Models

  • 论文地址:https://www.arxiv.org/abs/2412.13303


研究背景


视觉语言模型(Vision-Language Models, VLMs)是一类能够同时理解图像和文本信息的多模态模型。VLMs 通常通过一个投影层(也称连接模块)将来自预训练视觉骨干网络的视觉 token 输入到一个预训练的 LLM 中。


此前的研究已经探讨了视觉骨干网络、适配器(adapter)以及通常为解码器结构的 LLM 这三大组件的训练和微调策略。


已有多项研究指出,图像分辨率是影响 VLM 性能的关键因素,尤其在面对文本密集或图表密集的数据时表现尤为明显。然而,提升图像分辨率也带来了若干挑战。


首先,许多预训练视觉编码器在设计时并不支持高分辨率图像输入,因为这会显著降低预训练效率。


为了解决这一问题,一种方法是持续对视觉骨干进行预训练,使其适应高分辨率图像;另一种则是采用图像分块策略(tiling strategies),如 Sphinx、S2 和 AnyRes,将图像划分为多个子区域,并由视觉骨干分别处理各个子区域。


这类方法特别适用于基于视觉 Transformer(ViT)的模型架构,因为 ViT 通常不支持可变输入分辨率。


另一个挑战来自于高分辨率推理时的运行时计算成本。无论是单次高分辨率推理,还是在较低分辨率下多次推理(即采用切片策略),在生成视觉 token 时都存在显著延迟。


此外,高分辨率图像本身生成的 token 数量更多,这会进一步增加 LLM 的预填充时间(prefilling time,即 LLM 对包括视觉 token 在内的所有上下文 token 进行前向计算的时间),从而整体拉长初始输出时间(time-to-first-token, TTFT),即视觉编码器延迟与语言模型前填充时间之和。


本研究以 VLM 的设备端部署为动力,从运行时效率的角度出发,对其设计和训练进行系统性研究。我们重点研究图像分辨率提升对优化空间的影响,目标是改进精度 - 延迟之间的权衡,其中延迟包括视觉编码器的推理时间和 LLM 的前填充时间。


研究者通过在不同的 LLM 规模与图像分辨率下的大量实验证明,在特定的视觉骨干条件下,可以建立一条帕累托最优曲线(Pareto optimal curve),展示在限定运行时间预算(TTFT)内,不同的图像分辨率和语言模型规模组合能达到的最佳准确率。


研究者首先探索了一种混合卷积 - Transformer 架构 FastViT(预训练于 MobileCLIP)作为 VLM 视觉骨干的潜力。


实验证明,该混合骨干在生成视觉 token 方面的速度是标准 ViT 模型的四倍以上,同时基于多尺度视觉特征还实现了更高的整体 VLM 准确性。然而,若目标主要是高分辨率 VLM(而非如 MobileCLIP 那样仅关注嵌入生成),则该架构仍有进一步优化空间。


为此,研究者提出了







请到「今天看啥」查看全文