之前我写过一篇
Sakana 与 Jamba (qq.com)
Sakana也好,Jamba也罢,其实都是模型合并的一种比较好的项目实践,今天我们可以讨论一下普通开发者是否能像做一个项目一样,合并多个模型,达到自己想要的效果(GPU的连载后面写,东西太多,再给2篇也不知道能不能写完
)
不同于Sakana和Jamba,从头开始design模型的各个layer来进行合并,这种特别工程化的项目,大多数的开发者和小型团队,是不具备这样的能力的,说个最简单的,百分之99的人都不知道每一个层的权重分布到底是干啥的,这需要大量的实验数据和理论支撑。
如果不想像这两个项目做的这么细,其实也有现成的一