专栏名称: 量子位
վ'ᴗ' ի 追踪AI行业和技术动态,这里更快一步!关注我们,回复“今天”,更多大新闻等你来发现
目录
相关文章推荐
爱可可-爱生活  ·  晚安~ #晚安# -20250606225007 ·  昨天  
人工智能那点事  ·  粉丝已破百万!北大“韦神”突然开号?评论区成 ... ·  2 天前  
51好读  ›  专栏  ›  量子位

亚马逊专家揭秘:如何建立自动检测乳腺癌的深度学习模型

量子位  · 公众号  · AI  · 2017-06-19 14:34

正文

请到「今天看啥」查看全文


非典型病例:178例

良性致病类型:12例

恶性致病类型:13例

非典型致病类型:3例

大多数的超声检测图像大小为300*225像素,每个像素的值在0到225之间。这些图像来自不同的渠道,所以对病情的判定和解决方案都不尽相同。总共有12例良性致病类型和13例恶性致病类型,下图就展示了集中不同致病类型的乳腺病变。

为了使病变检测成为一个二进制的分类问题(良性或恶性),我忽略了所有的致病类型和非典型病例信息,并随机挑选了1920张图像用于建立和评估模型——这些图像中一半是良性的,而另一半是恶性的,是一个相对平衡的数据集。

数据准备

我用3*3的中值滤波器来移除超声图像中的斑点噪音,将每个图像上的像素值标准化,这样就会出现零均值。

先说明一点,对于乳腺癌这种复杂的图像分类问题,1920张图像是一个相对较小的数据集。扩充数据能够减少过度拟合,增强模型的泛化能力,是极具吸引力的解决方案。我们将这个数据集分成三部分,75%用于训练,12.5%用于验证,剩下的12.5%作为测试数据集。基于乳腺病变对旋转并不敏感的假设,我将每张图片进行旋转。具体来说,就是将每张图片在-10°到10°之间随机进行旋转,并重复了12次,最终得到1920*12=23040张图像。因为我想让整个病变区位于图像的核心,所以并没有使用裁剪或移动等其他的增强技术。

根据观察,几乎所有图片中的病变区(包含病变处和四周)都在图像中央,因此我可以把图片裁剪成200*200像素大小,这样也能移除图像旋转引起的填充。为了保持网络可控,每张图像降低采样到原图像的五分之一,也就是40*40像素大小。下面这张图就是数据准备的流程图。

数据增强步骤结束之后,现在手边有17280张训练图像,2880张验证图像,和2880张用于测试的图像。每个数据集都包含着50%的良性病例和恶性病例。在数据增强之前,验证和测试集和训练集要分开,所以各分组间没有重叠的原始图像。

算法

为了得到合适的分类器,常规方法通常是三个步骤:特征提取、特征选择和分类。这三个步骤需要单独被处理好,之后再整合在一起。提取判别特征可能会减轻后续特征选择和分类难度。然而,有效特征是基于问题的,并且高度依赖图像处理中每个中间结果 ,所以通常需要很多试错设计和针对不同用户的干预措施。







请到「今天看啥」查看全文