亚马逊专家揭秘：如何建立自动检测乳腺癌的深度学习模型

量子位 · 公众号 · AI · 2017-06-19 14:34

正文

请到「今天看啥」查看全文

非典型病例：178例

良性致病类型：12例

恶性致病类型：13例

非典型致病类型：3例

大多数的超声检测图像大小为300*225像素，每个像素的值在0到225之间。这些图像来自不同的渠道，所以对病情的判定和解决方案都不尽相同。总共有12例良性致病类型和13例恶性致病类型，下图就展示了集中不同致病类型的乳腺病变。

为了使病变检测成为一个二进制的分类问题（良性或恶性），我忽略了所有的致病类型和非典型病例信息，并随机挑选了1920张图像用于建立和评估模型——这些图像中一半是良性的，而另一半是恶性的，是一个相对平衡的数据集。

数据准备

我用3*3的中值滤波器来移除超声图像中的斑点噪音，将每个图像上的像素值标准化，这样就会出现零均值。

先说明一点，对于乳腺癌这种复杂的图像分类问题，1920张图像是一个相对较小的数据集。扩充数据能够减少过度拟合，增强模型的泛化能力，是极具吸引力的解决方案。我们将这个数据集分成三部分，75%用于训练，12.5%用于验证，剩下的12.5%作为测试数据集。基于乳腺病变对旋转并不敏感的假设，我将每张图片进行旋转。具体来说，就是将每张图片在-10°到10°之间随机进行旋转，并重复了12次，最终得到1920*12=23040张图像。因为我想让整个病变区位于图像的核心，所以并没有使用裁剪或移动等其他的增强技术。

根据观察，几乎所有图片中的病变区（包含病变处和四周）都在图像中央，因此我可以把图片裁剪成200*200像素大小，这样也能移除图像旋转引起的填充。为了保持网络可控，每张图像降低采样到原图像的五分之一，也就是40*40像素大小。下面这张图就是数据准备的流程图。