视觉大模型Video-LLaVA开源

视觉语言大模型Video-LLaVA开源,该模型将图像和视频表示对齐到统一的视觉特征空间,在13个图片和视频基准上达到先进的性能。据悉,Video-LLaVA在训练过程中没有使用成对的视频和图片数据,但在训练后,该模型展现出同时理解图片和视频的能力。Video-LLaVA在多个图片、视频基准上取得了SOTA(state-of-the-art)成绩,在MSVD、MSRVTT、TGIF和ActivityNet视频问答数据集上分别超出Video-ChatGPT成绩的5.8%、9.9%、18.6%和10.1%。

搜索