近日,卡内基梅隆大学(CMU)和普林斯顿大学的研究者提出了一种新的架构——Mamba(曼巴),用以解决Transformer在长序列上的计算效率低下问题。Mamba是一种状态空间模型(SSM),具有快速推理和序列长度的线性缩放优势,据称吞吐量比Transformer高5倍,并且在真实数据上处理长达百万长度的序列时性能有所提升。Mamba作为一个通用的序列模型,已经在语言、音频和基因组学等多个领域实现了最先进的性能。在语言建模方面,Mamba-3B模型在预训练和下游评估方面都优于同等大小的Transformer,并且其性能甚至可与两倍大小的Transformer相媲美。
论文地址:
https://arxiv.org/abs/2312.00752
代码地址:
https://github.com/state-spaces/mamba