全部标签

视觉模型

高德宣布 TrafficVLM 模型“重磅升级”：预知超视距路况，AI 带来“天眼”视角

9 月 20 日消息，高德通过官方公众号宣布实现 TrafficVLM（注：交通视觉语言模型），可助力用户实现全局交通掌控，提升驾驶体验。根据介绍，在现代交通环境中，驾驶者常常面临信息盲区的挑战：在复杂的路口穿梭时，只能看到眼前的车流，却无法预知百米外哪个车道即将拥堵；在畅通的高速上行驶时，却难以预见前方因轻微刹车而引发的“幽灵堵车”。这些局部视角的限制，使得驾驶者难以做出最优的决策。因此，Tr…
资讯
- 5k
25年9月20日
DeepSeek-VL2 AI 视觉模型开源：支持动态分辨率、处理科研图表、解析各种梗图等

DeepSeek 官方公众号昨日（12 月 13 日）发布博文，宣布开源 DeepSeek-VL2 模型，在各项评测指标上均取得了极具优势的成绩，官方称其视觉模型正式迈入混合专家模型（Mixture of Experts，简称 MoE）时代。 1AI援引官方新闻稿，附上 DeepSeek-VL2 亮点如下：数据：比一代 DeepSeek-VL 多一倍优质训练数据，引入梗图理解、视觉定位、视觉故事…
资讯
- 7.7k
24年12月14日
苹果推出全能视觉模型4M-21 可处理21种不同模态

苹果和瑞士洛桑联邦理工学院（EPFL）的研究人员联合开发了一种任意到任意模态的单一模型，可以在数十种高度多样化的模态上进行训练，并对大规模多模态数据集和文本语料库进行协同训练。该模型被命名为4M-21，它在21种不同的模态下进行训练，比现有的模型至少完成3倍以上的任务，并且不会损失性能。该研究采用了4M 预训练方案，通过扩大模型和数据集的规模、增加训练模型所涉及的模态类型和数量，并且在多个数据集…
资讯
- 7.8k
24年6月26日
Meta 推出 SceneScript AI 视觉模型，利用可编程语言实时预测建立 3D 场景

据 Meta 公司官方新闻稿，该公司开发了一款名为“SceneScript”的视觉模型，该模型号称能够使用可编程语言来快速“建立”场景，实时推断房间几何形状，并将相关数据转换为建筑学层面的近似值。图源 Meta 公司官方新闻稿 Meta 声称，相关方法能够高效且轻量地建立室内 3D 模型，号称“只需要数 KB 的内存即可生成清晰且完整的几何形状”，并且相关形状数据具有“可解释性”，用户可以轻松阅…
资讯
- 7.6k
24年3月26日

❯

搜索

幸运之星即将降临……

点击领取今天的签到奖励！

恭喜！您今天获得了{{mission.data.mission.credit}}积分

今日签到

连续签到

{{item.credit}}

连续{{item.count}}天

查看所有

我的优惠

_￥_優惠

使用時效：无法使用

使用時效：
之前

使用時效：预期有效

优惠编号：
×

限制以下商品使用：限制以下商品分类用途：不限制使用：

[{{ct.name}}]

所有商品及商品类型需求使用

没有优惠可用！

购物车

×

德

空空如也！

清空貨櫃前往

您的有新私信

没有新私信

写新私信查看全部

{{userData.name}}已认证

视觉模型

高德宣布 TrafficVLM 模型“重磅升级”：预知超视距路况，AI 带来“天眼”视角

DeepSeek-VL2 AI 视觉模型开源：支持动态分辨率、处理科研图表、解析各种梗图等

苹果推出全能视觉模型4M-21 可处理21种不同模态

Meta 推出 SceneScript AI 视觉模型，利用可编程语言实时预测建立 3D 场景

AI微博

AI应用

5000+AI应用！每日更新

1AICLUB

强烈推荐！官方品牌微博

AI教程

海量教程看不完

AI基础训练营

零基础入门，带你成为AI高手

1ai抖音

1ai大神

抖音号：1ai.net

1ai大神

抖音号：1ai.net

1ai微信

每天五分钟

一年变大神

扫码关注