专栏名称: AI科技评论
「AI科技评论」是国内顶尖人工智能媒体和产业服务平台,专注全球 AI 业界、学术和开发三大方向的深度报道。
目录
相关文章推荐
宝玉xp  ·  LLM 的 “思考”是靠输出 Token ... ·  昨天  
黄建同学  ·  网上这种 AI (Google ... ·  3 天前  
爱可可-爱生活  ·  【[372星]Chrome MCP ... ·  3 天前  
爱可可-爱生活  ·  【[275星]Davia:让Python开发 ... ·  3 天前  
爱可可-爱生活  ·  【[577星]Hugging Face ... ·  3 天前  
51好读  ›  专栏  ›  AI科技评论

学界 | 如何让医学图像诊断网络具备可解释性?CVPR oral 作者张子钊详解 MDNet 技术细...

AI科技评论  · 公众号  · AI  · 2017-08-23 12:01

正文

请到「今天看啥」查看全文


网络结构及技术细节

MDNet 的网络结构如图 1 所示。主要由三个子模块构成:图像模块用来生成图像的表达;语言模块接受图像表达输入来生成诊断报告;Attention 模块与语言模块配合生成逐字的图像关注区。

利用图像生成文字描述在计算机视觉中领域中叫做图像标注(Image captioning)。MDNet 在技术上和图像标注相似,但是 MDNet 针对一些医学图像特有问题会有一些特定的解决方案,使得 MDNet 在准确率上高于一般的图像标注方法(实验部分会说明)。在下文中,本文就三个模块一一进行介绍。

图 1: MDNet 网络结构。图像为膀胱显微镜图像的一个感兴趣区域和对应的诊断报告。

  • 图像模块

医学图像中特征(比如显微镜图像中的细胞)通常表现在不同大小的区域内,所以一方面 CNN 需要多尺度(multi-scale)范围的描述。另一方面,由于医学图像数据集通常不够大,所以 CNN 应该具有高效的学习能力,即用尽量少的参数获得最佳准确率。考虑到这两点,我们改进了残差网络(ResNet)来提高它隐形的多尺度集成能力。根据对 ResNet 最后分类模块的数学分析(具体见原文),提出利用独立的权重来集成不同尺度特征图的思想。实现方法非常简单,只需对 ResNet 稍加改动。在对比试验中,利用 8M 的参数,在 CIFAR 10/100 上达到 4.43%/19.94% 的错误率。而比较的 ResNet,在更大的 10M 的参数量上是 4.92%/22.71%(更多的结果请参考原文)。

  • 语言模块

语言模块主要由 LSTM 网络构成。不同于自然图像标注问题,医学图像并没有像 Inception 一样有带精细化标签数据集(ImageNet)以及训练好的 CNN 网络(最后的特征图融合了很多类的语义信息),所以如何利用 LSTM 从图像对应的诊断报告中提取这些关于图像的语义信息来帮助 CNN 理解图像的特征很重要。我们做了两个改进(见图 2):







请到「今天看啥」查看全文