专栏名称: 生信菜鸟团
生信菜鸟团荣誉归来,让所有想分析生物信息学数据的小伙伴找到归属,你值得拥有!
目录
相关文章推荐
生物学霸  ·  国自然基金委:5 年 1200 万支持,为 ... ·  15 小时前  
BioArt  ·  Molecular ... ·  3 天前  
51好读  ›  专栏  ›  生信菜鸟团

前瞻 | 用于医学图像解释的多模态生成式人工智能 | Nature

生信菜鸟团  · 公众号  · 生物  · 2025-04-03 12:55

正文

请到「今天看啥」查看全文


Generative AI for medical report generation
Para_01
  1. 直到最近,医学报告生成框架主要由视觉编码器和语言解码器组成。
  2. 在这个框架中,编码器从图像中提取视觉信息并将其转换为向量表示,而解码器则将一个向量转化为特定的输出,在这种情况下是语言。
  3. 多年来,研究基于编码器-解码器方法,创新了新的方法来更好地编码图像数据、考虑外部知识、筛查异常等。
  4. 然而,基础模型——包括大型语言模型(LLM)在内的大型预训练通用人工智能系统的出现,通过促进新型GenMI解决方案的发展,彻底改变了医学图像解释。
  5. 这些GenMI方法声称可以生成更准确的医学报告,并执行其他多个下游任务,使用相同的基模型处理多模态数据。
  6. 这些算法中的大部分都建立在视觉-语言模型(VLMs)的基础上,这些模型将单独的视觉和语言模型融合到一个统一的框架中,可以同时编码图像和文本输入。
  7. 图2概述了多模态生成AI解锁的医学图像解释的新应用。

Fig. 2: The capabilities of GenMI.

- 图片说明

◉ 左上角,基于人工智能的医学图像解释模型传统上依赖于单模态输入来输出静态文本报告或其他疾病预测。 ◉ 右下角,GenMI 的出现为更动态的图像解释打开了大门。 ◉ 新技术将能够考虑全面的多模态上下文,包括患者病史和先前的图表,并生成注释和标签以提高报告的质量。 ◉ 它们还允许与患者和临床医生进行实时互动和后续跟进,从而提高对人工智能生成输出的可解释性。

Incorporating LLMs

融入大语言模型

Para_01
  1. 大型语言模型(LLMs)的出现显著影响了医学报告生成——算法现在采用GPT变体或其他大型语言模型作为其解码器,而不是较小的传统模型。
  2. 许多研究已经转向利用大型语言模型的知识和推理能力,这使它们成为更强健的报告生成解码器。
  3. 然而,这种使用方式较为局限,并未充分利用提示技术或在集成到视觉-语言模型(VLM)框架时的独特能力来编码多模态输入。
  4. 除了在编码器-解码器范式中作为解码器外,大型语言模型还被用于报告质量保证,以重写报告并去除幻觉,这些通常是错误引用不存在的先前报告。
Para_02
  1. 最近,人们开始推动更加通用的视觉-语言系统,在这些系统中,GenMI 模型被开发出来处理多模态输入,并执行各种医学图像解释任务,包括报告生成和视觉问答。
  2. 几个这样的框架利用了大语言模型(LLM)的能力来生成报告并回答不同条件和模态下的问题,而无需额外的标注数据。
  3. GPT-4V 是 OpenAI 的一个流行示例,它可以在某些情况下识别成像模态和解剖结构,为病理图像生成结构化报告,并根据医学提示修改这些报告。
  4. 然而,初步评估该模型在医学领域的开箱即用效用的结果不佳,且在准确诊断医学状况方面面临困难。
  5. 还有其他一些 GenMI 方法使用较小的语言模型来实现类似的性能。
Para_03
  1. 尽管大型语言模型(LLMs)在未来的多模态医学报告生成中很有前景,但目前它们面临几个限制,这些限制阻碍了其临床应用。
  2. LLMs 容易产生偏见、频繁的幻觉和不准确性,这在医学报告生成的背景下尤其成问题,因为在医学报告生成中保持无偏见和临床准确性是至关重要的。
  3. 临床医生也经常处理不完整的信息,但在患者信息和病史缺乏的情况下,更复杂的模型会经历更高的幻觉和误诊率。
  4. 此外,用于报告生成的大多数基础模型都是为英语开发的。
  5. 除了中文之外,对其他语言的研究有限。
  6. 许多这些问题可以通过谨慎的数据收集和进一步开发 LLMs 来缓解,并且在审计部署在 GenMI 框架内的 LLMs 时,保持人类合作是很重要的。

Multimodal processing

多模态处理

Para_01
  1. 将多模态数据纳入的能力是更准确的医疗报告生成的一个令人兴奋的途径;除了直接处理输入查询和图像外,多模态输入允许更强的临床背景编码。
  2. 虽然以前的报告生成方法已经结合了诸如先前病史等多模态输入,但视觉语言模型(VLMs)为更有效的多模态处理打开了大门。
  3. 例如,一种使用VLMs的GenMI方法可以通过对提供的图像进行文本域标识符令牌编码来整合各种输入模态。
  4. 尽管VLMs带来了改进,当前的基础模型在整合多模态图像输入方面的性能仍不及临床医生。
  5. 像谷歌的Gemini和GPT-4V这样的针对多模态任务调整的模型在这方面尤其有前途,并且在包括健康和医学领域的多模态和高层次推理基准测试中表现更好。
Para_02
  1. 改进多模态VLMs生成报告的基础是它们使用统一的文本和图像表示空间学习任务的能力。
  2. 这种表示学习通常实现一种称为交叉注意力的机制,在生成这些共享表示时,模型学习图像和文本序列不同方面的‘重要性得分’矩阵。
  3. 视觉和文本编码器的对比学习,即机器学习模型通过比较组或对来区分相似和不相似的数据,是这种共享表示空间学习的关键,并且也导致了医学报告生成的改进。
Para_03
  1. 尽管已有许多研究结合了多模态输入,但探索多模态输出的研究却少得多,在这种情况下,生成的报告附带某种非文本形式的输出,以提高可解释性或丰富其临床实用性。
  2. 例如,一种方法能够在输入图像上输出边界框,这显著提高了其可解释性。
  3. 另一项研究构建了一个统一模型,可以从给定输入中生成文本报告以及胸部X光片。
  4. 除了这些研究之外,多模态输出在报告生成中的使用相对未被探索。

Fig. 3: Implementing an AI resident.

- 图片说明

◉ 制定一种有效的AI住院工具的发展策略,该工具可以协助临床医生起草报告,提供互动的临床专业知识,并教育住院医师和医学生。 ◉ 为了实施AI住院医师,首先可以在现有数据集上以自动化方式评估GenMI算法,使用传统的自然语言相似性度量和临床准确性得分。 ◉ 随后,可以在有临床医生密切监督的受控环境中前瞻性地测试新病例。







请到「今天看啥」查看全文