变压器架构已显示出显著的可扩展性,从而大大提高了精度。然而,这种进步是以极高的计算要求为代价的,这已成为实际应用中的重大障碍。
尽管研究人员一直在积极寻求解决方案来减小变压器组件的尺寸并修剪注意力头等元素,但另一个关键组件,即前馈网络(FFN),仍然相对未得到充分探索。
在最近一篇题为“One Wide Feedforward is All You Need”的论文中,Equall和Apple的合作研究工作深入研究了FFN的作用,并发现了一个令人惊讶的启示:尽管消耗了模型参数的很大一部分,但FFN表现出高冗余。因此,研究人员建议在编码器和解码器之间共享单个FFN,从而减少参数数量,同时仅导致精度适度下降。
在变压器架构中,有两个主要组件占据主导地位:注意力和FFN。通常,FFN占据了大约三分之二的参数预算,将注意力留给了其余的三分之一。在他们的研究中,研究人员探索了编码器和解码器FFN之间的参数共享,旨在评估其对模型准确性的影响。
总体目标是在模型大小、延迟和准确性之间取得平衡。研究团队的主要重点是回答以下问题:
1、可以共享或修剪多少参数,而精度下降最小甚至没有下降?
2、编码器和解码器 FFN 在共享时是否表现出类似的效果?
3、在保持相同模型大小的同时,是否可以更有效地分配FFN参数?
为了解决这些问题,研究人员引入了“一个宽FFN”模型,这是一种新颖的架构方法,在编码器中具有单个共享宽FFN,并在解码器中补充FFN。他们还使用线性中心核对齐来评估内部表示之间的相似性和局部邻域相似性来衡量不同模型之间的语义空间相似性。
他们的研究结果表明,当采用One Wide FFN模型架构时,变压器的模型精度和内部表示都保持稳定。同时,参数数量显著减少,为变压器模型的更高效、更实用的实施提供了希望。
论文One Wide Feedforward是arXiv上你所需要的。