专栏名称: 大数据挖掘DT数据分析
实战数据资源提供。数据实力派社区,手把手带你玩各种数据分析,涵盖数据分析工具使用,数据挖掘算法原理与案例,机器学习,R语言,Python编程,爬虫。如需发布广告请联系: hai299014
目录
相关文章推荐
数据派THU  ·  【ICML2025】多模态表示坍塌的深度剖析 ·  9 小时前  
阿里云大数据AI平台  ·  【5月重点功能发布】阿里云大数据+ AI ... ·  13 小时前  
阿里云大数据AI平台  ·  【5月重点功能发布】阿里云大数据+ AI ... ·  13 小时前  
网信内蒙古  ·  解读2024年全国数据资源调查情况 ·  昨天  
网信内蒙古  ·  解读2024年全国数据资源调查情况 ·  昨天  
IDC咨询  ·  Data+AI市场快速演进,数据管理分析与G ... ·  2 天前  
IDC咨询  ·  Data+AI市场快速演进,数据管理分析与G ... ·  2 天前  
51好读  ›  专栏  ›  大数据挖掘DT数据分析

CNN识别患者CT图像预测患癌的可能性

大数据挖掘DT数据分析  · 公众号  · 大数据  · 2018-05-05 07:00

正文

请到「今天看啥」查看全文


在公众号 datadw 里 回复 CT图像 即可获取。



背景

肺癌是最常见的癌症之一,尤其在北美地区。其是男性最常见的癌症形式,其次为女性。全球每年有160万人死于肺癌,仅在美国每年就有225000肺癌新增病例。此外,肺癌也是低存活率的癌症之一,平均5年的存活率低于20%。然而,早期发现的平均概率至少是肺癌存活率的两倍。


The Data Science Bowl (DSB) 是Kaggle举办的年度机器学习竞赛。2017年的竞赛是该赛事的第三届比赛,该次比赛共有2000名选手,其奖金池也高达100万美元。该比赛的目标为构建一个自动化系统,其能预测患者在下一年的CT扫描诊断中是否会被诊断为肺癌。该比赛的数据集只提供了每位患者的一次CT扫描图像,并删除了患者的相关信息。


工具

解决方案完全使用Python高级程序设计语言,并使用了相关的开源科学计算库:

  • keras

  • theano

  • numpy

  • scipy

  • scikit-learn

  • pandas


数据集

本次竞赛的数据集为1600幅高分辨率的胸部CT扫描图像,其切片厚度均小于3mm。扫描图像的大小为512×512×400体素,但在世界坐标系的单位中,其大小约为30cm×30cm×40cm。感兴趣区域通常在1cm 3 左右。在训练集中,每幅CT扫描图像对应一个二值标签。


额外数据集

额外的数据集为LUNA16竞赛的数据集,其数据集来源于LIDC数据集,在该数据集的结节注释中包含如下特征:

  • diameter

  • lobulation

  • spiculation

  • malignancy

  • calcification

  • sphericity

在该数据集中放射科医师标记了1200个结节,重点关注结节的直径、分叶、毛刺和恶性程度。


方法

主要步骤为:

  1. 归一化CT图像;

  2. 找寻感兴趣区域;

  3. 预测结节属性;

  4. 综合结节属性预测,预测患者诊断。

最终的解决方案结合了17层的3D卷积神经网络模型,并由两个集合(ensemble)组成。每个集合(ensemble)中的模型采用不同的体系结构、训练计划、目标、子数据集和激活函数。


数据集归一化

首先,将每幅CT图像的大小调整为每一像素表示1mm 3 的体积,从而保证同一模型能够应用于不同切片厚度的CT图像。然后,将切片的HU值的范围-1000 ~ +400转换为-0 ~ +1,其中HU值为-1000将映射为0,+400将映射为1。最后,对CT图像进行粗略肺部分割,从而消除与肺部不相交区域。








请到「今天看啥」查看全文