北大全新混合序列建模架构MixCon超Mamba?

北京大学林宙辰团队开发了新的混合序列建模架构MixCon,有效提高长序列处理的效率与性能;MixCon结合了Transformer层、Conba层和MoE组件,实现复杂序列的高效建模;通过实验验证,MixCon在多个自然语言处理和序列分析基准测试中表现优异,明显超过现有模型如Mamba。

搜索