专栏名称: 生物探索
探索生物科技价值的新媒体
目录
相关文章推荐
生信人  ·  Nature Genetics ... ·  4 天前  
BioArt  ·  Cell Stem ... ·  昨天  
51好读  ›  专栏  ›  生物探索

Nature Methods | 打破传统瓶颈:InterpolAI以光流魔法,重塑高精度3D组织重...

生物探索  · 公众号  · 生物  · 2025-06-02 15:30

正文

请到「今天看啥」查看全文



AI的“先行者”与InterpolAI的“独辟蹊径”
在人工智能领域,生成模型(generative models)如生成对抗网络(GANs)和扩散模型(diffusion models)已在合成组织图像方面展现出巨大潜力。例如,CycleGANs可以将H&E染色的图像转换为合成的IHC染色图像,这在一定程度上实现了跨模态转换(cross-modality translation)。扩散模型也被用于扩增MRI和CT扫描的训练数据集,以增强深度学习模型的性能。
然而,这些生成模型在生成合成生物图像以提取准确的微观解剖信息方面仍存在局限性。它们通常用于生成同一张切片的不同染色图像,但在推断相邻切片之间缺失或受损的微观结构变化方面,其能力有限。换句话说,它们很难在Z轴(深度轴)上“脑补”出连续、准确的细节。此外,生成模型在合成图像中准确捕捉微小或稀有的纹理特征、细胞簇和组织边界等方面仍面临技术挑战。
正是认识到这些局限性,研究人员将目光投向了帧插值(frame interpolation)技术,特别是用于处理大范围图像运动(large image motion)的光流(optical flow)方法。光流的概念最早由Horn和Schunck在1980年代提出,它通过估计图像帧之间像素的视在运动来描述物体的运动。早期光流方法计算成本高,精度有限,但随着深度学习技术的发展,特别是卷积神经网络(CNNs)和循环神经网络(RNNs)的应用,运动预测和图像合成能力得到了显著提升。
InterpolAI正是基于这种光流概念,将视频帧插值方法FILM(Frame Interpolation for Large Motion)巧妙地应用于生物医学图像的空间插值。它犹如一位数字生物学中的“福尔摩斯”,通过分析图像帧之间的像素“运动”规律,精准预测并生成缺失的图像,从而弥补了传统方法在处理复杂生物结构时的不足。与传统的图像翻译(image translation)模型(如GANs)不同, InterpolAI不是将一张图像转换为另一种风格,而是在两张真实的、无损的图像之间“创造”出新的、从未存在过的图像,从而恢复3D结构的连续性 。它不需要预先知道缺失切片的信息,就能像魔法一样填补空白。

InterpolAI的“解密”:它如何实现图像插值和修复?
那么,InterpolAI究竟是如何工作的呢?它的核心在于其算法设计,尤其是在处理大规模生物医学图像时的创新性。
InterpolAI的工作流程可以概括为三个主要步骤:特征提取金字塔(feature extraction pyramid)、光流估计(optical flow estimation)以及特征融合与图像合成(feature fusion and frame synthesis)。

特征提取金字塔
首先,InterpolAI接收一对相邻的、高质量的2D图像作为输入。这些图像通过一个由六个卷积层组成的特征提取金字塔进行处理。这个金字塔的设计非常巧妙:随着层数的增加,卷积核尺寸逐渐增大,步长逐渐减小,这使得模型能够同时捕捉到从精细像素级细节到大范围组织结构的不同尺度的特征。更重要的是,这些层之间共享权重,极大地提高了模型处理小范围运动和大范围运动的效率。这意味着,无论是微小的细胞位移还是整个组织的宏观变形,InterpolAI都能有效地提取其特征。

双向光流估计
提取到特征后,它们被送入一个双向光流估计模块。这个模块的核心任务是计算输入图像之间像素级的运动向量(即“光流”)。这些向量描述了每个像素从一张图像移动到另一张图像的方向和距离。采用“双向”方法是InterpolAI的关键优势之一:它不仅计算从第一张图像到第二张图像的运动,也计算从第二张图像到第一张图像的运动。这种双向估计能够捕捉更准确、更精细的插值信息,尤其在处理复杂运动和遮挡区域时表现更佳。

特征融合与图像合成
在获得了提取的特征和估计的光流后,InterpolAI进入最终的融合阶段。它将对齐后的特征、光流信息以及原始输入图像本身连接起来,形成一个综合的特征金字塔。这个融合后的金字塔包含了图像的视觉信息和帧间的运动动态。最后,一个U-Net解码器架构处理这个融合后的特征金字塔,并合成出最终的插值图像。U-Net中的跳跃连接(skip connections)是确保插值图像保留精细细节并与输入图像保持一致性的关键。

动态插值能力
InterpolAI的算法是基于一个递归函数设计的,该函数能够根据输入帧的数量和模型递归处理的次数,来决定插值图像的数量。这使得InterpolAI能够灵活地根据用户需求,在输入图像之间插值生成1、4、7或15帧图像。通过将时间序列概念(从0到1)引入图像插值,InterpolAI能够动态地确定插值步长,从而生成对应于缺失切片的时间点图像。

大规模图像的处理
对于组织学切片等大规模图像(例如,尺寸超过14000x10000像素的图像),InterpolAI还配备了“分块拼接”(tile-and-stitch)算法,以有效处理计算机内存限制。它将大型全切片图像(WSIs)分割成用户定义大小(如1024x1024或2048x2048像素)的带填充的小块(padded tiles),每个小块都有X和Y索引。然后,对具有相同索引的小块对进行插值。一旦所有小块都被插值,它们会被拼接回完整的图像,并移除填充区域。这种方法确保了InterpolAI在处理高放大率的大尺寸图像时同样稳健。

InterpolAI的“硬核”表现:多模态图像的全面验证
“是骡子是马,拉出来遛遛!”为了全面评估InterpolAI的性能,研究团队在多种成像模式、不同物种、多种染色技术和不同像素分辨率的数据集上进行了严格的验证。这包括:H&E染色和IHC染色的人胰腺组织切片、小鼠脑部的ssTEM显微照片堆栈、透明化小鼠肺部的光片显微镜图像,以及人脑的结构MRI数据集。
他们选择了线性插值(linear interpolation)和当时最先进的光流插值方法XVFI(eXtreme Video Frame Interpolation)作为对照,进行了一场全面的“大比拼”。

组织学切片:修复“疤痕”,还原真实面貌
在病理诊断和研究中,组织学切片是金标准。然而,切片过程中的物理损伤或存储不当常常导致切片丢失或损坏,严重影响3D重建的连续性。
人胰腺H&E染色切片
研究人员选取了人胰腺H&E染色切片堆栈进行测试。这些切片包含胰岛、导管上皮、血管、脂肪、腺泡、细胞外基质(ECM)和胰腺上皮内肿瘤(PanIN)等八种微观结构。为了模拟缺失数据,研究人员跳过7张切片,然后使用InterpolAI进行插值。
质量对比: 结果令人惊喜!线性插值图像常常在导管周围出现噪声和伪影,甚至将受损区域错误地填充为腺泡样物质,而非真实的空白区域。它也无法很好地保留血管结构,导致模糊。XVFI虽然移除了部分损伤,但仍残留黑色伪影,且在空白区域错误生成了有色腺泡结构。相比之下,InterpolAI成功修复了损伤,精准保留了空白区域,并且导管上皮层光滑清晰,中央结构完整,没有噪声和伪影。它还准确地插值了导管,同时保留了细胞信息,而XVFI则无法插值出细胞信息,呈现出模糊或缺失细胞的图像。






请到「今天看啥」查看全文