首个无自然语言的大型视觉模型发布

12月05日

admin

来自BAIR和约翰斯·霍普金斯大学的团队发表了一篇论文，推出了首个无需自然语言数据的大型视觉模型（LVM，Large Vision Models）。该研究团队引入了一种新的序列建模方法，可以在没有任何语言数据的情况下学习LVM。论文定义了一种通用格式，即”视觉句子”，用于表示原始图像和视频以及带有语义分割和深度重建等注释数据源，而无需除像素之外的其他元知识。通过将包含4200亿个标记的各种视觉数据表示为序列，模型可以通过最小化交叉熵损失进行下一个标记预测的训练。通过对不同规模的模型架构和数据多样性进行训练，论文提供了实证证据表明该模型具有有效的可扩展性。在测试阶段，通过设计适当的视觉提示，可以解决许多不同的视觉任务。该项目的源代码、模型和数据集将来会开源。

论文地址：
https://arxiv.org/abs/2312.00785
项目主页：
https://yutongbai.com/lvm.html

{{userData.name}}已认证

首个无自然语言的大型视觉模型发布

用AI制作宠物吃播视频，百万流量爆款视频教程直接抄

小米突然发布新模型：媲美 DeepSeek-V3.2

Google、Shopify 前高管加盟 OpenAI

OpenAI 发布新生图模型，PK Nano Banana

豆包手机：首批货源已售罄，此前行业内传闻的备货数量均不准确

OpenAI 宣布：苹果 Apple Music 即将与 ChatGPT 集成

Meta 扩大员工使用竞争对手 AI工具权限，含 ChatGPT-5、 Gemini 3 Pro 等

AI Diagram Generator：图表生成器，AI一键生成流程图、思维导图、UML图等多种图表

AI微博

AI应用

5000+AI应用！每日更新

1AICLUB

强烈推荐！官方品牌微博

AI教程

海量教程看不完

AI基础训练营

零基础入门，带你成为AI高手

1ai抖音

1ai大神

抖音号：1ai.net

1ai大神

抖音号：1ai.net

1ai微信

每天五分钟

一年变大神

扫码关注