论文链接：https://arxiv.org/abs/2301.03281

数据集链接：Home - Grand Challenge

github baseline：GitHub - PerceptionComputingLab/INSTANCE2022: Official repository of MICCAI 2022 INSTANCE challenge

数据集得自己填表申请

比赛是2022的，论文是2023的，还是比较新比较有参考价值的

摘要

三维非对比头部CT (NCCT)扫描中颅内出血的自动分割在临床应用中具有重要意义。现有的出血分割方法通常忽略了NCCT的各向异性，并且在不同的内部数据集上使用不同的指标进行评估，这给提高分割性能和对不同方法进行客观比较带来了很大的挑战。旨在解决上述问题，促进颅内出血分割和各向异性数据处理的发展。INSTANCE发布了一个包含100个具有基础真值的案例的训练集和一个包含30个没有基础真值标签的案例的验证集，这些案例可供参与者使用。一个包含70个案例的测试集用于最终评估和排名。根据Dice Similarity Coefficient(DSC)、Hausdorff Distance(HD)、Relative Volume Difference(RVD)和Normalized Surface Dice(NSD) 4个指标对不同参与者的方法进行排名。共有13个团队提交了不同的解决方案来解决这些挑战，为未来的研究人员提供了几种基线模型、预处理策略和各向异性数据处理技术。获胜者方法的平均DSC为0.6925，比我们提出的基线方法有显著增长。据我们所知，所提出的INSTANCE挑战发布了第一个颅内出血分割基准，也是第一个旨在解决三维医学图像分割中各向异性问题的挑战，为这些研究领域提供了新的选择。

背景

非收缩头部计算机断层扫描(NCCT)是诊断脑出血INTRACRANIAL hemorrhage (ICH)的主要成像方式，因为它在大多数急诊室广泛使用，并且检测脑出血的灵敏度很高。此外，NCCT可以准确监测出血进展，并有效量化脑出血的血肿体积[1]，[4]，[7]，使其成为脑出血诊断的金标准检查。

ABC/2方法[13]因其操作简单，在临床实践中是一种有效的血肿体积估算方法。然而，ABC/2方法的估计精度在不规则或大规模出血时急剧下降[8]，[14]。脑出血分割方法，使准确和快速的血肿体积定量，已成为脑出血诊断的主要标准。

然而，对ICH进行自动分割还存在许多挑战。例如，不同患者的出血结构在形状、大小和定位方面存在很大差异，因此无法使用有价值的位置和形状先验，而这些先验是分割许多其他解剖结构的重要因素。ICH区域边界的模糊进一步提高了分割任务的难度[15]。

最近，基于深度学习的脑出血分割模型对脑出血区域进行分割并量化血肿体积，从而有效地诊断脑出血，并取得了有竞争力的结果[6]，[16]-[20]。然而，上述所有ICH分割方法都忽略了NCCT体积的各向异性，只是简单地执行2D或3D卷积网络，并且它们是在不同的内部出血分割数据集上进行评估的，具有不同的指标，这使得提高分割性能和对这些数据集进行客观比较具有很大的挑战性

我们收集并发布了一个由几位经验丰富的放射科医生提供的200个3D Volumes的ICH分割数据集，并对其进行了精细的标记，并鼓励参与者开发新的算法，利用各向异性NCCT体积有效地分割血肿区域。

***NCCT（非造影剂增强计算机断层扫描），它在常规情况下生成的是一系列的2D图像切片，这些切片显示了身体内不同深度的断层结构

***对于NCCT数据，各向异性可能表现在以下几个方面：

空间分辨率的不同： NCCT图像在X、Y和Z三个方向上的空间分辨率可能不同。这意味着图像中的像素在不同方向上表示的距离可能不同，从而影响了在不同方向上观察解剖结构的清晰度。
像素尺寸的变化： NCCT图像的像素可能在不同方向上具有不同的物理尺寸。例如，在横向和纵向方向上的像素大小可以与轴向（Z方向）上的像素大小不同。这可能导致图像在不同方向上的细节呈现不均匀。
重建插值： 在NCCT数据的3D重建过程中，插值可能会用于填充像素之间的空隙。这可能导致在某些方向上的图像细节模糊或失真。
切片间距： NCCT数据中的切片间距可能不同。切片间距影响着体积数据的连续性和空间分辨率。

在本挑战中，各向异性表现在：像素间距:0:42mm0:42mm5mm

结果

在提出的INSTANCE挑战中，我们采用了SLEX-NET[6]作为基线模型。值得注意的是，SLEX-NET中使用的数据集与INSTANCE 2022不同。因此，我们在INSTANCE 2022数据集上重新训练基线模型的算法，其他训练细节与原文设置一致。

对于参与者的模型，我们发现所有参与者都选择了与U-Net相关的架构，包括注意力U-Net[37]、U-Net[22]、3D U-Net[38]、nnU-Net[39]等。其中，nnUNet仍然是最受欢迎的模型，13个团队中有7个采用了nnUNet作为骨干网络。

比赛结果↓

Results - Grand Challenge

评估结果

重要的是，大多数研究小组得到的HD平均值为“无穷大”，因为他们的方法错误地将一些有微小出血的疑难脑出血病例诊断为正常受试者

排名靠前的队的成绩分布标准差要小于排名靠后的球队，存在的异常值也较少。

血肿体积分析

体积较小的出血点较难分割，而体积较大的血肿ICHs相对容易获得较好的分割效果。

图3用散点图突出了体积大小与DSC分数之间的相关性。由此可见，体积较小的出血点较难分割，而体积较大的血肿ICHs相对容易获得较好的分割效果。

图4展示了四种血肿体积大小组的所有方法的效果。它是通过将70个测试用例与四个不同的卷大小组分开来生成的:包括[0;4213);(4213;7235);(7235;19640);(19640;inf]，根据各组结果计算DSC平均评分。图4进一步证明，对于不同算法的参与者，DSC分数随着体积大小的增加而提高。

出血分型分析

颅内出血的不同亚型位于大脑的不同位置，患者可能出现几种出血的组合。

图5显示了不同类型出血的平均DSC值。它表明，与其他四种ICHs相比，SAH在所有指标中取得了最差的结果。因此，如何有效地分割SAH可能是改善ICH分割最迫切需要解决的问题。

挑战排名分析

在图6 (a-d)中，大部分黄色块位于对角线上方，蓝色块位于对角线下方，说明大多数级别较小的队伍明显优于级别较大的队伍。

此外，它还表明，不同metrics具有区分好坏的独特能力。例如，T7的DSC、NSD和HD显著优于T12，而RVD指标不存在显著优势。

讨论

2D/3D架构选择

我们注意到获胜者的方法采用了2D/3D的组合方法，并且大多数3D的方法都优于2D的实现方法，但是我们不能明确地得出哪种方法优于另一种方法的结论，因为影响最终结果的因素还有很多。

为此，许多参与者使用了3D UNet实现，然而，考虑到该挑战中的CT体积是各向异性的(像素间距:0:42mm0:42mm5mm)，这可能不是最佳解决方案[43]，因此需要更有效的技术来利用各向异性体积的层间背景。

ICH分割的瓶颈

1. 第IV-C2节的血肿体积分析表明，对小体积出血的分割性能较差如图3所示

DSC评分低于0.3的大多数是出血量小于15000m3的受试者，所有受试者的DSC整体表现明显变差，DSC评分较低

2. 此外，IV-C3节的出血亚型分析显示，蛛网膜下腔出血(SAH)在所有指标中表现最差，平均DSC评分仅为0.41。因此，如何处理蛛网膜下腔出血是脑出血分割的另一个瓶颈。

未来的ICH分类研究方向可能集中在上述两个瓶颈上。解决这些疑难病例将大大提高出血诊断的研究水平。

评价指标分析

我们强烈建议使用DSC、NSD和RVD作为ICH分割基准的评估指标。HD和NSD是类似的指标，用于评估目标和预测边界之间的差异。然而，我们遇到了多个极端情况，平均HD指标等于无穷大，当预测方法错误地将那些有小出血病灶的硬病例诊断为正常的头部扫描。无限的数值使得在该度量上对不同算法进行有效排序变得很困难。然而，NSD指标与DSC有相同的上限(100%)，不会发生这种情况。因此，对于INSTANCE挑战，Hausdorff距离可能不是一个好的度量选择，我们考虑在未来的INSTANCE挑战中放弃它。

局限性和未来工作

数据收集和注释

尽管INSTANCE2022挑战赛提供了相对较大的数据集，但这些数据主要来自同一家机构的同一台CT扫描仪。虽然它可以在我们的挑战中工作，但它肯定会限制不同参与者开发的模型的泛化。此外，在数据标注上，我们只将出血区域作为前景，没有考虑脑出血的亚型，这些亚型实际上是临床诊断的重要信息，也可以指导脑出血的分割。