用多视点深度卷积神经网络进行高分辨率乳腺癌筛查
图二 筛查乳房X线照相的例子。这是一个病人的从不同角度拍摄的四张照片。她有一个肿瘤,但是它不是A顶部的圆形位置,它在左乳房中的灰色部分,看起来就像其余的灰色部分。通过观察乳房X线照是很难发现这种细微的差距
这篇文章十分有趣,论文的标题类型说明了我们想要知道的一切——他们使用深度学习的方法,用高分辨率的方式在每个病例中以多个不同的图像视角来查看乳房X线照片,并将其应用于乳腺癌的筛查。
下面是我列出的几条在我以前的报告中经常会提到的一些可能出现的问题:
1.论中分析了一些单个图像,但是大部分的医疗任务中都会使用很多图像进行分析。
2. 文中提到的方法丢弃了图像中的大部分像素,而只是希望真正有用的信息不会被丢失。
3. 文中提到的方法是对临床人群的训练模型进行的训练。但是对于筛查人群中,疾病的流行率却非常得低(通常低于1%),这样的话分类算法就不能有效的进行。
在我们探讨这些问题之前,我们来看看这篇文章的全部内容。
任务
他们训练了一个人工智能系统来对乳腺癌进行筛查。这个系统能够将乳房X线照片分为临床类别BI-RADS 0,1或2型。BI-RADS评分系统是一种十分常见和有效的评估乳房X线照片恶性肿瘤风险的结构化方法。
但是事实上,BI-RADS是一个从0到5的评分系统。有关恶性肿瘤的病变评分为3+。 所以他们根本没有评估恶性肿瘤,他们检查扫描的照片是否正常(1)代表正常(2)代表有“良性”病变(0)代表尚不能确诊。不用你说,我知道这不是一个很有趣的临床任务,从机器学习的方面去考虑这些样本甚至都没有确切的标注。
数据
他们有二万三千张乳房X线照片,是我们前两篇文章的提到的数据集大小的六分之一。 请注意,他们将其数据集描述为超过100,000个图像,但由于每个对象都有4个或者更多的图像,所以这不是一个有效的测量方法。
实际上他们只有1.8万名患者(有些患者有一个以上的乳房X线照片),但只要确保同一个患者的照片不会在训练和测试中同时出现,那就没有问题。因此在训练数据集中严禁出现已测试数据。
然而,他们所面临的一个最重要的挑战是疾病的发生率。