OCELOT dataset
D
=
{
(
x
s
,
y
s
c
,
x
l
,
y
l
t
,
c
x
,
c
y
)
i
}
i
=
1
N
\mathcal{D} = \left\{\left(\mathbf{x}_s, \mathbf{y}_s^c, \mathbf{x}_l, \mathbf{y}_l^t, c_x, c_y\right)_i\right\}_{i=1}^{N}
D={(xs,ysc,xl,ylt,cx,cy)i}i=1N
x
s
∈
R
1024
×
1024
×
3
\mathbf{x}_s\in\mathbb{R}^{1024\times 1024 \times 3}
xs∈R1024×1024×3表示cell patch
y
s
C
,
(
y
s
C
)
i
∈
R
×
R
×
{
1
,
2
}
\mathbf{y}_s^C, \left(y_s^C\right)_i\in\mathbb{R}\times\mathbb{R}\times\left\{1, 2\right\}
ysC,(ysC)i∈R×R×{1,2}, 表示cell的标签,每个元素是一个三元组,1 Background Cell,2 Tumor Cell
x
l
∈
R
1024
×
1024
×
3
\mathbf{x}_l\in\mathbb{R}^{1024\times 1024\times3}
xl∈R1024×1024×3表示tissue patch
y
l
t
∈
{
1
,
2
,
255
}
1024
×
1024
\mathbf{y}_l^t\in\left\{1,2,255\right\}^{1024\times 1024}
ylt∈{1,2,255}1024×1024表示tissue的标签,1 Background,2 Cancer Area, 255 UNK (Unknown)
c
x
,
c
y
c_x, c_y
cx,cy是
x
s
\mathbf{x}_s
xs的中心在
x
l
\mathbf{x}_l
xl中的相对坐标
这是
y
l
t
\mathbf{y}_l^t
ylt,其中白色的部分是未知
这是
x
l
\mathbf{x}_l
xl,绿色部分是Cancer Area
这是
x
s
\mathbf{x}_s
xs,其中黄色的点为Background Cell,蓝色的点为Tumor Cell
配置
x
s
\mathbf{x}_s
xs是
1024
×
1024
1024\times 1024
1024×1024,0.2MPP
x
l
\mathbf{x}_l
xl是
4096
×
4096
4096\times 4096
4096×4096,0.2MPP, 随后4倍下采样到
1024
×
1024
1024\times 1024
1024×1024
TC:BC = 35.01%: 64.99%
BG:CA:UNK = 55.77%:40.17%:4.06%
训练:验证:测试=400:137:126
大约6:2:2
ps:
TC:BC = 0.36571231398085396: 0.6342876860191461
BG:CA:UNK = 0.5493605471304639: 0.4071568896148359: 0.043482563254700166
x
s
\mathbf{x}_s
xs的原始尺寸:最小397, 最大1023, 平均801.8069381598793
x
l
\mathbf{x}_l
xl的原始尺寸:最小1591, 最大4095, 平均3208.883861236802
能保证他们的原始尺寸是正方形(高=宽)
x
l
\mathbf{x}_l
xl的原始尺寸:
x
s
\mathbf{x}_s
xs的原始尺寸的比例在4.00左右(即4或者4.00xxx)
实验
93%的TC在CA里
85%的BC在CA外面
因此细胞和组织一定有某种关系
Tissue-label Leaking Model
将
y
l
t
\mathbf{y}_l^t
ylt对应于
x
s
\mathbf{x}_s
xs的那一块切出来,然后resize到
1024
×
1024
1024\times 1024
1024×1024,表示为
y
s
t
\mathbf{y}_s^t
yst
随后将
x
s
\mathbf{x}_s
xs和
y
s
t
\mathbf{y}_s^t
yst按通道concat,输入模型
在验证集和测试集上,F1分别提升7.69和9.76