论文地址:https://arxiv.org/pdf/2302.06675.pdf
代码地址:https://github.com/google/automl/tree/master/lion
我们提出了一种将算法发现作为程序搜索的方法,并将其应用于发现用于深度神经网络训练的优化算法。我们利用高效的搜索技术来探索一个无限且稀疏的程序空间。为了弥补代理任务和目标任务之间的大泛化差距,我们还引入了程序选择和简化策略。我们的方法发现了一种简单而有效的优化算法,名为Lion (EvoLved Sign Momentum)
。它比Adam
更节省内存,因为它只追踪动量。与自适应优化器不同,它的更新通过符号操作计算得出的每个参数具有相同的大小。我们将Lion
与广泛使用的优化器(如Adam
和Adafactor
)进行比较,在不同任务上训练各种模型。在图像分类中,Lion
在ImageNet
上将ViT的准确率提升了高达2%
,并在JFT
上节省了多达