位置感知视觉识别Vision Mamba新模型发布

华中科技大学、地平线和智源研究院的研究人员提出了名为Vision Mamba(Vim)的新模型,相关论文已在arXiv上发表。该论文介绍了Vision Mamba块,结合了双向SSM用于数据依赖的全局视觉上下文建模以及位置嵌入用于位置感知视觉识别。据介绍,当对分辨率为1248×1248的图像进行批量推理时,Vim比成熟的视觉Transformer模型DeiT快2.8倍,并节省了86.8%的GPU内存。Mamba是去年12月推出的一种新架构,在语言任务上能够匹配Transformer性能,具有线性复杂度和5倍推理吞吐量。

项目主页:
https://github.com/hustvl/Vim
论文地址:
https://arxiv.org/pdf/2401.09417.pdf

搜索