正文
非典型病例:178例
良性致病类型:12例
恶性致病类型:13例
非典型致病类型:3例
大多数的超声检测图像大小为300*225像素,每个像素的值在0到225之间。这些图像来自不同的渠道,所以对病情的判定和解决方案都不尽相同。总共有12例良性致病类型和13例恶性致病类型,下图就展示了集中不同致病类型的乳腺病变。
为了使病变检测成为一个二进制的分类问题(良性或恶性),我忽略了所有的致病类型和非典型病例信息,并随机挑选了1920张图像用于建立和评估模型——这些图像中一半是良性的,而另一半是恶性的,是一个相对平衡的数据集。
数据准备
我用3*3的中值滤波器来移除超声图像中的斑点噪音,将每个图像上的像素值标准化,这样就会出现零均值。
先说明一点,对于乳腺癌这种复杂的图像分类问题,1920张图像是一个相对较小的数据集。扩充数据能够减少过度拟合,增强模型的泛化能力,是极具吸引力的解决方案。我们将这个数据集分成三部分,75%用于训练,12.5%用于验证,剩下的12.5%作为测试数据集。基于乳腺病变对旋转并不敏感的假设,我将每张图片进行旋转。具体来说,就是将每张图片在-10°到10°之间随机进行旋转,并重复了12次,最终得到1920*12=23040张图像。因为我想让整个病变区位于图像的核心,所以并没有使用裁剪或移动等其他的增强技术。
根据观察,几乎所有图片中的病变区(包含病变处和四周)都在图像中央,因此我可以把图片裁剪成200*200像素大小,这样也能移除图像旋转引起的填充。为了保持网络可控,每张图像降低采样到原图像的五分之一,也就是40*40像素大小。下面这张图就是数据准备的流程图。
数据增强步骤结束之后,现在手边有17280张训练图像,2880张验证图像,和2880张用于测试的图像。每个数据集都包含着50%的良性病例和恶性病例。在数据增强之前,验证和测试集和训练集要分开,所以各分组间没有重叠的原始图像。
算法
为了得到合适的分类器,常规方法通常是三个步骤:特征提取、特征选择和分类。这三个步骤需要单独被处理好,之后再整合在一起。提取判别特征可能会减轻后续特征选择和分类难度。然而,有效特征是基于问题的,并且高度依赖图像处理中每个中间结果 ,所以通常需要很多试错设计和针对不同用户的干预措施。