首个无自然语言的大型视觉模型发布

来自BAIR和约翰斯·霍普金斯大学的团队发表了一篇论文,推出了首个无需自然语言数据的大型视觉模型(LVM,Large Vision Models)。该研究团队引入了一种新的序列建模方法,可以在没有任何语言数据的情况下学习LVM。论文定义了一种通用格式,即"视觉句子",用于表示原始图像和视频以及带有语义分割和深度重建等注释数据源,而无需除像素之外的其他元知识。通过将包含4200亿个标记的各种视觉数据表示为序列,模型可以通过最小化交叉熵损失进行下一个标记预测的训练。通过对不同规模的模型架构和数据多样性进行训练,论文提供了实证证据表明该模型具有有效的可扩展性。在测试阶段,通过设计适当的视觉提示,可以解决许多不同的视觉任务。该项目的源代码、模型和数据集将来会开源。

论文地址:
https://arxiv.org/abs/2312.00785
项目主页:
https://yutongbai.com/lvm.html

搜索