Att论文解读|ICLR 2018 《Graph attention networks》图注意力网络

论文地址

论文地址：https://arxiv.org/abs/1710.10903

github:PetarV-/GAT: Graph Attention Networks (https://arxiv.org/abs/1710.10903) (github.com)

gordicaleksa/pytorch-GAT: My implementation of the original GAT paper (Veličković et al.). I've additionally included the playground.py file for visualizing the Cora dataset, GAT embeddings, an attention mechanism, and entropy histograms. I've supported both Cora (transductive) and PPI (inductive) examples! (github.com)

论文首页

笔记框架

图注意力网络

📅出版年份:2018
📖出版期刊:
📈影响因子:
🧑文章作者:Veličković Petar,Cucurull Guillem,Casanova Arantxa,Romero Adriana,Liò Pietro,Bengio Yoshua

🔎摘要:

我们提出了图注意力网络（GATs），这是一种可在图结构数据上运行的新型神经网络架构，它利用掩码自注意力层来解决之前基于图卷积或其近似值的方法的不足之处。通过堆叠节点能够关注其邻域特征的层，我们能够（隐式地）为邻域中的不同节点指定不同的权重，而不需要任何形式的代价高昂的矩阵运算（如反转），也不依赖于对图结构的预先了解。通过这种方式，我们同时解决了基于谱的图神经网络所面临的几个关键挑战，并使我们的模型可随时应用于归纳和转换问题。我们的 GAT 模型在四个已确立的转导和归纳图基准中取得了最先进的结果或与之相当：Cora、Citeseer 和 Pubmed 引用网络数据集，以及蛋白质-蛋白质相互作用数据集（其中测试图在训练期间保持未见）。

🔩GATs模型架构:

我们将首先描述单个图形注意力层，作为我们实验中使用的所有 GAT 架构中使用的唯一层。我们使用的特殊注意力设置密切遵循 Bahdanau 等人的工作。

输入层

我们层的输入是一组节点特征，该层生成一组新的节点特征作为其输出。

权重初始化

作为初始步骤，将由权重矩阵参数化的共享线性变换应用于每个节点。

共享注意力机制

然后，我们对节点执行自注意力——共享注意力机制。我们通过执行屏蔽注意力将图结构注入到机制中。

在我们的实验中，注意力机制 a 是一个单层前馈神经网络，由权重向量参数化，并应用 LeakyReLU 非线性（负输入斜率 α = 0.2）。

多头注意力

K个独立的注意力机制执行方程4的变换，然后将它们的特征连接起来。

softmax

一旦获得，归一化注意力系数用于计算与其对应的特征的线性组合，作为每个节点的最终输出特征（在可能的之后）应用非线性。

如果我们在网络的最后（预测）层上执行多头注意力，串联就不再明智了——相反，我们采用平均，并延迟应用最终的非线性（通常是 softmax 或逻辑 sigmoid分类问题）。

🧪实验:

📇数据集:

我们利用三个标准引文网络基准数据集——Cora、Citeseer 和 Pubmed（Sen 等人，2008）——并严格遵循 Yang 等人的转导实验设置。

我们利用蛋白质-蛋白质相互作用（PPI）数据集，该数据集由对应于不同人体组织的图表组成（Zitnik & Leskovec，2017）。

📉优化器&超参数:

转导学习任务

我们应用两层 GAT 模型。

其架构超参数已在 Cora 数据集上进行了优化，然后重新用于 Citeseer。第一层由 K = 8 个注意力头组成，每个注意力头计算 F ′ = 8 个特征（总共 64 个特征），后面是一个指数线性单元 (ELU) 非线性。

第二层用于分类：计算 C 个特征（其中 C 是类数）的单个注意力头，然后是 softmax 激活。

为了应对较小的训练集大小，在模型中广泛应用了正则化。在训练期间，我们应用 λ = 0.0005 的 L2 正则化。此外，p = 0.6 的 dropout（Srivastava 等人，2014）应用于两个层的输入以及归一化注意力系数。

与 Monti 等人观察到的类似。 (2016)，我们发现 Pubmed 的训练集大小（60 个示例）需要对 GAT 架构进行轻微更改：我们应用了 K = 8 个输出注意头（而不是 1 个），并将 L2 正则化增强到 λ = 0.001。除此之外，该架构与 Cora 和 Citeseer 使用的架构相匹配。