TC；DR

目前的LSTM仅能对序列信息进行建模，但是自然语言中通常由词组成的短语形成了句法依存的语义树。为了学习到树结构的语义信息。论文中提出了两种Tree-LSTM模型。Child-Sum、Tree-LSTM、和N-ary Tree LSTMs。实验部分的Tree-LSTM、对比多种LSTMs的变体，在语义相似性计算和情感分类任务超过有bselilnes。

Model

LSTM

首先简单介绍下 LSTM提供的后续论文改进对比，主要模型结构如下所示：
在这里插入图片描述
每个门电路的计算方式如下：
$f_t = \sigma(W^{f}x_t + U^{f}h_{t - 1} + b^{f})$
$i_t = \sigma(W^{i}x_t + U^{i}h_{t -1} + b^{i})$
$c_t =i_t \odot u_t + f_t \odot c_{t-1}$
$0_t = \sigma(W^{0}x_{t} + U^{0} h_{t - 1} + b^{0})$
$h_t = o_t\odot tanh(c_t)$

总结

通过不断的门控单元和门控细胞，复杂的计算并一层一层的传递，。
此部分不再阐述，详细可以参考另一篇文章全部都将其搞定都行啦的样子与打算。
LSTM能够处理序列信息，但是无法处理带有树结构的数据，例如，下图所示的依存句法分析树。成分句法分析树等。
$带有树结构的信息$

在这里插入图片描述

以上仅表示两种自然语言分析中的两种语义表示格式，但是模型可以类推到其他树结构数据。

Tree-LSTM

为了将树结构的数据作为输入训练RNN，论文提出了两种结构:
$T r e e - S t r u c t u r e d L S T M$

Child-SUM Tree-LSTMS(Dependency Tree-LSTMs)
适用于子节点个数不定或子节点乱序的树结构。
N-ary Tree-LSTM(Constituency Tree-LSTMs)
适用于每个单元子单元的个数最多是N，且子单元之间是有序的。

与标准的LSTM结构类似，Tree-LSTM中的每个cell ,都包括类似的输入门 $i_t$ ,输出门 $o_t$ ,cell state $c_t$ 和隐藏输出 $h_t$ .

不同的是Tree-LSTM单元中门向量和细胞状态更新依赖于所有与子相关的子单元的状态。另外，相比较于标准的LSTM的单个遗忘门，Tree-LSTM拥有多个遗忘门 $f_{jk}$ ,分别对应当前单元的每个子单元 $k$ ,因此，Tree-LSTM可以选择地从子节点中获取信息，例如再情感分类中，去保**存语义信息更加丰富的子节点信息

**。
与标准的LSTM不同，每个Tree-LSTM单元会有一个输入向量 $x_J$

$x_j$ 可以表示一个句子中单词的向量表示，每个节点的input word取决于网络的树结构，例如要处理的Dependency tree 的Tree-LSTM,那么Tree-LSTM树中的每个节点，将[head word]，对应的向量当做输入，而在[constituency tree]中，将对应的词向量当做输入。
考虑到目前需要处理的数据类似于 Dependency Tree.因此，本文中仅介绍下**： Child-Sum Tree-LSTMs**。

Child-Sum Tree-LSTMs

给定树且另 $C (j)$ 表示节点 $j$ 的子节点集合。那么Child-SUM Tree-LSTMs的计算公式如下：
在这里插入图片描述
从上述计算公式即可：Tree-LSTM与LSTM间的区别包含两点：

LSTM只用到了上一步神经元的隐藏输出 $h_{t - 1}$ ,而Tree-LSTM用了所有子节点的隐藏输出 $\widetilde{h_j} = \sum_{k \in C_{j}}h_k$
Tree-LSTM使用多个遗忘门 $f_{jk}$ 来控制多个子节点:cell state candidate $c_k$

由于Child_Tree Tree-LSTMs将其子节点的状态 $h_k$ 进行累加，因此适合（多分枝、子节点无序的树。）例如：dependency tree, 一个 head 的 dependent 数量是高度可变的，因此我们将应用在dependency tree上的 Child-Sum Tree-LSTM称为 Dependency Tree-LSTM 。