智源视觉团队发布EVA-CLIP-18B的对比式语言-图像预训练(CLIP)模型,拥有180亿个参数,在图像、视频和3D方面取得了显著的进展,特别是在零样本识别能力上,27个图像分类基准测试中达到了80.7%的零样本准确率。这一成绩明显优于之前的EVA-CLIP-5B模型,以及谷歌、苹果等公司发布的其他开源CLIP模型。团队还将公开EVA-CLIP-18B模型的权重和训练代码,为未来的计算机视觉和视觉-语言多模态研究提供强大的视觉基础模型。
论文链接:
https://arxiv.org/abs/2402.04252
模型和代码链接:
https://github.com/baaivision/EVA/tree/master/EVA-CLIP-18B