这几个超参数可变,但是也不能变得太多;
语言本身是复杂的,但可以按照多套语法体系来解剖语言现象,所以超参数是有一定可变的范围;
为什么是6层编码器和解码器呢?
人类的语言可以按照六个层次来组织:
词法,简单句法,复合句法,段内文法,章内文法,章间文法;
个人觉的7会更好,因为7是一个完全数;可能还存在一种语法关系,人类没有捕捉到;
这种层次关系,可能是被 transformer 倒过来,并且是复合解析的,是一种人类的语法观念所不曾领略到的语法模式;这对语言学家应该有很大的启示。
有点像是红学家的那种通篇解析法;
为什么多头注意力要有8个head呢?
上面每一层次的语法,在本层类,都可以按照8个特征关系类来划分;
比如词法:动词,形容词,名词,代词,...
比如简单句法:主谓,主谓宾,主谓宾补,主系表,...
比如复合句法:转折,因果,让步,排比,...
后面三个更高级,但其内部一定有特征关系;
个人觉的7会更好,因为7是一个完全数;每层8关系似乎太多了。
网络结构如何把低阶语法关系传递到高层上去的呢?
比如第一层的词法关系,如何传递到第二层的简单句法里去了呢?第二层的简单句法关系,又是如何编码并传递到复合句法层的呢?