Liquid AI与液态神经网络：超越Transformer的大模型架构探索

news2025/3/12 10:14:05

1. 引言

自2017年谷歌发表了开创性的论文《Attention Is All You Need》以来，基于Transformer架构的模型迅速成为深度学习领域的主流选择。然而，随着技术的发展，挑战Transformer主导地位的呼声也逐渐高涨。最近，由麻省理工学院(MIT)计算机科学与人工智能实验室（CSAIL）孵化的初创公司Liquid AI提出了一种基于**液态神经网络（Liquid Neural Networks，LNN）**的新架构，并推出了多模态AI模型——Liquid Foundation Models（LFM）。本文将对Liquid AI的创新架构、模型性能及其背后的技术原理进行深入剖析，探讨LNN在未来AI模型架构中的潜力和应用。

2. Liquid AI的多模态大模型LFM

Liquid AI推出的LFM系列包括三个不同的模型：LFM-1.3B、LFM-3B和LFM-40.3B，它们的共同特点是高效、低内存占用，并在多个基准测试中超越了同等规模的Transformer模型。

2.1 LFM-1.3B：轻量级大模型

LFM-1.3B是Liquid AI模型中参数最小的一款，特别适合资源受限的环境，如边缘设备部署。在与同规模的其他模型（如Meta的Llama和微软的Phi模型）的对比中，LFM-1.3B在多个基准测试中取得了最高分，成为首个在性能上显著优于Transformer架构的非Transformer模型。

2.2 LFM-3B：边缘设备的理想选择

LFM-3B不仅在性能上优于许多同类模型，还在内存使用方面展现出了显著的优势。与Transformer模型相比，LFM-3B在长序列任务处理时表现尤为突出，其仅需16 GB内存，而类似的Llama-3.2-3B则需要超过48 GB内存。这种极高的内存效率，使得LFM-3B成为边缘设备上的理想选择，特别适合长序列任务，如文档分析、RAG（检索增强生成）等应用。

2.3 LFM-40.3B：混合专家模型

LFM-40.3B是Liquid AI推出的最大规模模型，旨在处理复杂任务。它采用了混合专家模型（Mixture of Experts, MoE）架构，通过激活12B参数，能够以更小的模型规模实现与更大模型相媲美的性能。这种架构设计不仅提升了模型的推理效率，还降低了硬件成本，极大地扩展了模型的应用场景。

3. 液态神经网络（Liquid Neural Networks, LNN）架构详解

LNN是Liquid AI的核心创新点，与传统的深度学习模型依赖大量神经元不同，LNN通过少量神经元即可完成复杂任务。这一技术背后的关键是LNN的计算核心——液态时间常数网络（Liquid Time-constant Networks），它受到仿生学中**秀丽隐杆线虫（C. elegans）**神经结构的启发。

3.1 LNN的计算逻辑

传统神经网络的每个神经元通过固定的权重值和静态的神经元连接来执行计算，而LNN中的神经元则由微分方程（ODE）来控制。每个神经元可以根据输入数据动态调整自身的时间常数，使网络能够更灵活地适应变化的输入序列。通过这种方式，LNN能够在稳定性、表达能力和时间序列预测方面优于传统的循环神经网络（RNN）和Transformer。