视觉语言大模型Video-LLaVA开源,该模型将图像和视频表示对齐到统一的视觉特征空间,在13个图片和视频基准上达到先进的性能。据悉,Video-LLaVA在训练过程中没有使用成对的视频和图片数据,但在训练后,该模型展现出同时理解图片和视频的能力。Video-LLaVA在多个图片、视频基准上取得了SOTA(state-of-the-art)成绩,在MSVD、MSRVTT、TGIF和ActivityNet视频问答数据集上分别超出Video-ChatGPT成绩的5.8%、9.9%、18.6%和10.1%。
❯
搜索
扫码打开当前页
返回顶部
幸运之星即将降临……
点击领取今天的签到奖励!
恭喜!您今天获得了{{mission.data.mission.credit}}积分
我的优惠
-
¥優惠使用時效:无法使用使用時效:
之前
使用時效:预期有效优惠编号:×
没有优惠可用!