视觉大模型Video-LLaVA开源

11月22日

admin

视觉语言大模型Video-LLaVA开源，该模型将图像和视频表示对齐到统一的视觉特征空间，在13个图片和视频基准上达到先进的性能。据悉，Video-LLaVA在训练过程中没有使用成对的视频和图片数据，但在训练后，该模型展现出同时理解图片和视频的能力。Video-LLaVA在多个图片、视频基准上取得了SOTA（state-of-the-art）成绩，在MSVD、MSRVTT、TGIF和ActivityNet视频问答数据集上分别超出Video-ChatGPT成绩的5.8%、9.9%、18.6%和10.1%。

TOP1

AI导演入门教程，AI分镜图生成视频看完直接用的提示词
9小时前
TOP2

国家反诈中心上线 AI 内容鉴定功能，可辨图像、视频、文本、音频内容
14小时前
TOP3

OpenAI 奥尔特曼坦诚 AI 在美国不受欢迎：快成了电价上涨与失业的“替罪羊”
14小时前
OpenClaw 之父指责腾讯「白剽」，又对百度说「Amazing」
14小时前
RoomDesign：AI室内设计工具，实现房间的虚拟改造
17小时前
Audio To Text Transcription：音频转换为文本插件，快速获取任何音频文件的即时转录
17小时前

❯

搜索

幸运之星即将降临……

点击领取今天的签到奖励！

恭喜！您今天获得了{{mission.data.mission.credit}}积分

今日签到

连续签到

{{item.credit}}

连续{{item.count}}天

查看所有

我的优惠

_￥_優惠

使用時效：无法使用

使用時效：
之前

使用時效：预期有效

优惠编号：
×

限制以下商品使用：限制以下商品分类用途：不限制使用：

[{{ct.name}}]

所有商品及商品类型需求使用

没有优惠可用！

购物车

×

德

空空如也！

清空貨櫃前往

您的有新私信

没有新私信

写新私信查看全部

{{userData.name}}已认证

视觉大模型Video-LLaVA开源

AI导演入门教程，AI分镜图生成视频看完直接用的提示词

国家反诈中心上线 AI 内容鉴定功能，可辨图像、视频、文本、音频内容

OpenAI 奥尔特曼坦诚 AI 在美国不受欢迎：快成了电价上涨与失业的“替罪羊”

OpenClaw 之父指责腾讯「白剽」，又对百度说「Amazing」

RoomDesign：AI室内设计工具，实现房间的虚拟改造

Audio To Text Transcription：音频转换为文本插件，快速获取任何音频文件的即时转录

AI微博

AI应用

5000+AI应用！每日更新

1AICLUB

强烈推荐！官方品牌微博

AI教程

海量教程看不完

AI基础训练营

零基础入门，带你成为AI高手

1ai抖音

1ai大神

抖音号：1ai.net

1ai大神

抖音号：1ai.net

1ai微信

每天五分钟

一年变大神

扫码关注