@misc{Ilse_Tomczak_Welling_2018,
title={Attention-based Deep Multiple Instance Learning},
journal={International Conference on Machine Learning},
author={Ilse, Maximilian and Tomczak, JakubM. and Welling, Max},
year={2018},
month={Jul} }
1、摘要与引言
本文提出了一种基于神经网络的置换不变聚合算子,该算子与注意力机制相关。值得注意的是,所提出的基于注意力算子的应用提供了每个实例对包标签贡献的观察。实现表明本方法在基准MIL数据集上有着很好的性能。
本文提出的新方法旨在将可解释性纳入MIL方法中,并增加其灵活性。利用包标签的伯努利分布建立MIL模型,并通过优化对数似然函数对模型进行训练。文章表明对数函数基本定理为包标签概率(包得分函数)模型的建立提供了一个程序,主要包含三个步骤:
· 将实例从高维度到低维度的转换;
· 置换不变聚合函数;
· 对包概率的转换;
本文使用神经网络(卷积层和全连接层的组合)将所有转换进行参数化,这能够提升算法的灵活性,并通过优化无约束目标函数以端到端的方式对模型进行训练。本文使用可训练的加权平均值来代替置换不变算子,权重值由双层神经网络(与注意力机制相关)给出。注意力机制能够帮助我们找到关键实例(就是决定包标签的那些实例),这些实例可以进一步用于突出显示可能的ROIs(Region Of Interest)。
2、方法论
2.1、定理
定理1:
得分函数
S
(
X
)
S(X)
S(X)对一组示例
X
X
X进行打分,当该函数能够分解为以下形式时,该函数为对称函数:
S
(
X
)
=
g
(
∑
x
∈
X
f
(
x
)
)
S(X)=g(\sum_{x\in X}f(x))
S(X)=g(x∈X∑f(x))
其中,
f
f
f和
g
g
g是合适的转换函数。也可以将上述公式中的sum替换为max。
定理2:
豪斯多夫连续对称函数
S
(
X
)
S(X)
S(X)与函数
g
(
max
x
∈
X
f
(
x
)
)
g(\max_{x\in X}f(x))
g(maxx∈Xf(x))能够无限接近任何的
ε
>
0
\varepsilon>0
ε>0:
∣
S
(
X
)
−
g
(
max
x
∈
X
f
(
x
)
)
∣
<
ε
|S(X)-g(\max_{x\in X}f(x))|<\varepsilon
∣S(X)−g(x∈Xmaxf(x))∣<ε
定理1与定理2的区别在于:前者是普遍分解,后者提供了任意近似。尽管如此,它们都使用三步方法来分类由实例组成的包:
· 使用函数
f
f
f实现将实例从高维度到低维度的转换;
· 使用置换不变聚合函数
σ
\sigma
σ将转换后的实例组合起来;
· 使用函数
g
g
g的
f
f
f变换实现对包概率的转换;
得分函数的表现取决于函数 f f f和 g g g的选择。两个定理的得分函数都是概率 θ ( X ) \theta(X) θ(X),置换不变函数 σ \sigma σ也被称为MIL池化。函数 f f f、 g g g和 σ \sigma σ的选择决定了对标签概率建模的具体方法,具体而言有两种主要方法:
(1)实例级方法:转换函数 f f f是一个实例级分类器,它为每个实例返回分数。然后通过MIL池化对每个实例的得分进行汇总,得到 θ ( X ) \theta(X) θ(X),函数 g g g是恒等函数。
(2)嵌入级方法:转换函数 f f f将实例嵌入到低维度,MIL池化用于获得与包中实例数量无关的包表示。包表示又由包级分类器进一步处理以获得 θ ( X ) \theta(X) θ(X)。
后一种方法更可取(很多论文都是这么说的)。
2.2、带神经网络的多示例学习
我们考虑使用一类由神经网络 f ψ ( ⋅ ) f_{\psi }(·) fψ(⋅)参数化的转换:将第 k k k个实例转换为低维嵌入 h k = f ψ ( x k ) h_k=f_{\psi }(x_k) hk=fψ(xk),其中 h K ∈ H h_K\in \mathcal{H} hK∈H,实例级方法中 H = [ 0 , 1 ] \mathcal{H}=[0,1] H=[0,1]、嵌入级方法中 H = R M \mathcal{H}=\mathbb{R}^M H=RM。
最终,参数 θ ( X ) \theta(X) θ(X)由变换函数转换函数 g ϕ : H K → [ 0 , 1 ] g_\phi:\mathcal{H}^K→[0,1] gϕ:HK→[0,1]所决定。在实例级方法中转换函数 g ϕ g_\phi gϕ只是恒等式,而在嵌入级方法中它可以是具有参数 ϕ \phi ϕ的参数化神经网络。
使用神经网络对所有变换进行参数化非常有吸引力,因为该方法任意灵活,并可以通过反向传播进行端到端训练。
2.3、MIL池化
MIL的定义要求MIL池化函数
σ
\sigma
σ是置换不变量,定理1与定理2可以利用利用最大算子或平均算子来确保得分函数(包概率函数)是对称函数。
∀
m
=
1
,
.
.
.
,
M
:
z
m
=
max
k
=
1
,
.
.
.
,
k
{
h
k
m
}
\forall _{m=1,...,M}:z_m=\max _{k=1,...,k}\left \{ h_{km} \right \}
∀m=1,...,M:zm=k=1,...,kmax{hkm}
z
=
1
K
∑
k
=
1
K
h
k
z=\frac{1}{K}\sum_{k=1}^{K}h_k
z=K1k=1∑Khk
同样也可以使用其他可微的算子,作为深度神经网络中的MIL池化层。
2.4、基于注意力机制的MIL池化
MIL池化方法:最大算子或平均算子都不能很好的计算包概率,因此需要灵活和自适应的MIL池,通过调整来获得更好的结果。
注意力机制:
本文提出使用实例(低维嵌入)的加权均值,其中权值是由神经网络决定的,且权值之和必须为1。若使用
H
=
{
h
1
,
.
.
.
,
h
K
}
H=\left \{ h_1,...,h_K \right \}
H={h1,...,hK}表示
K
K
K个嵌入的包,那么本文提出以下MIL池化:
z
=
∑
k
=
1
K
a
k
h
k
z=\sum_{k=1}^{K}a_kh_k
z=k=1∑Kakhk
其中,权值
a
k
a_k
ak的计算公式为:
其中,
w
∈
R
L
×
1
\mathbf{w} \in \mathbb{R}^{L×1}
w∈RL×1与
V
∈
R
L
×
M
\mathbf{V} \in \mathbb{R} ^{L×M}
V∈RL×M都是参数。并使用
t
a
n
h
(
)
tanh()
tanh()来计算梯度流的负值和正值,该公式能够衡量实例之间的相似性。
门注意力机制:
由于
t
a
n
h
(
)
tanh()
tanh()在学习非线性复杂关系时可能效率低下,因此提出使用门控机制与非线性
t
a
n
h
(
)
tanh()
tanh()共同决定权值:
其中,
w
∈
R
L
×
M
\mathbf{w} \in \mathbb{R}^{L×M}
w∈RL×M是参数,
⊙
\odot
⊙是元素乘法,
s
i
g
m
(
)
sigm()
sigm()是非线性sigmoid函数。
灵活性:
所提出的基于注意力的MIL池允许将不同的权重分配给包内的实例,因此包的最终表示对于包级分类器来说可以是高度有信息的。换句话说,它应该能够找到关键实例。此外,基于注意力的MIL池以及由神经网络参数化的变换
f
f
f和
g
g
g的应用使得整个模型完全可微和自适应。这两个事实使所提出的MIL池成为一个潜在的非常灵活的算子,可以对任意置换不变的分数函数进行建模。