-
高德宣布 TrafficVLM 模型“重磅升级”:预知超视距路况,AI 带来“天眼”视角
9 月 20 日消息,高德通过官方公众号宣布实现 TrafficVLM(注:交通视觉语言模型),可助力用户实现全局交通掌控,提升驾驶体验。 根据介绍,在现代交通环境中,驾驶者常常面临信息盲区的挑战:在复杂的路口穿梭时,只能看到眼前的车流,却无法预知百米外哪个车道即将拥堵;在畅通的高速上行驶时,却难以预见前方因轻微刹车而引发的“幽灵堵车”。这些局部视角的限制,使得驾驶者难以做出最优的决策。因此,Tr…- 1.5k
-
DeepSeek-VL2 AI 视觉模型开源:支持动态分辨率、处理科研图表、解析各种梗图等
DeepSeek 官方公众号昨日(12 月 13 日)发布博文,宣布开源 DeepSeek-VL2 模型,在各项评测指标上均取得了极具优势的成绩,官方称其视觉模型正式迈入混合专家模型(Mixture of Experts,简称 MoE)时代。 1AI援引官方新闻稿,附上 DeepSeek-VL2 亮点如下: 数据:比一代 DeepSeek-VL 多一倍优质训练数据,引入梗图理解、视觉定位、视觉故事…- 3.2k
-
苹果推出全能视觉模型4M-21 可处理21种不同模态
苹果和瑞士洛桑联邦理工学院(EPFL)的研究人员联合开发了一种任意到任意模态的单一模型,可以在数十种高度多样化的模态上进行训练,并对大规模多模态数据集和文本语料库进行协同训练。该模型被命名为4M-21,它在21种不同的模态下进行训练,比现有的模型至少完成3倍以上的任务,并且不会损失性能。 该研究采用了4M 预训练方案,通过扩大模型和数据集的规模、增加训练模型所涉及的模态类型和数量,并且在多个数据集…- 5.2k
-
Meta 推出 SceneScript AI 视觉模型,利用可编程语言实时预测建立 3D 场景
据 Meta 公司官方新闻稿,该公司开发了一款名为“SceneScript”的视觉模型,该模型号称能够使用可编程语言来快速“建立”场景,实时推断房间几何形状,并将相关数据转换为建筑学层面的近似值。 图源 Meta 公司官方新闻稿 Meta 声称,相关方法能够高效且轻量地建立室内 3D 模型,号称“只需要数 KB 的内存即可生成清晰且完整的几何形状”,并且相关形状数据具有“可解释性”,用户可以轻松阅…- 3.3k
❯
搜索
扫码打开当前页
返回顶部
幸运之星即将降临……
点击领取今天的签到奖励!
恭喜!您今天获得了{{mission.data.mission.credit}}积分
我的优惠
-
¥優惠使用時效:无法使用使用時效:
之前
使用時效:预期有效优惠编号:×
没有优惠可用!



