智源开源新一代多模态基础模型Emu2

智源研究院发布了新一代多模态基础模型Emu2,该模型通过大规模自回归生成式多模态预训练,显著提升了多模态上下文学习能力。Emu2在少样本多模态理解任务上明显超越了Flamingo-80B、IDEFICS-80B等主流多模态预训练大模型,在VQAv2、OKVQA、MSVD、MM-Vet、TouchStone等多项少样本理解、视觉问答、主体驱动图像生成等任务中表现出最佳性能。与今年7月发布的第一代“多模态to多模态”Emu模型相比,Emu2采用了更简单的建模框架,并训练了从编码器语义空间重建图像的解码器,将模型规模扩展到37B参数,实现了在模型能力和通用性上的突破。

项目主页:
https://baaivision.github.io/emu2
论文地址:
https://arxiv.org/abs/2312.13286

搜索