智谱开源新一代通用视觉语言模型

资讯
25年7月3日
編輯

admin

昨日，智谱正式推出并开源了新一代通用视觉语言模型 GLM-4.1V-Thinking，号称「GLM 系列视觉模型实现从感知走向认知的关键跃迁」。

智谱开源新一代通用视觉语言模型

具体来看，GLM-4.1V-Thinking 是一款支持图像、视频、文档等多模态输入的通用推理型大模型，专为复杂认知任务设计。其在 GLM-4V 架构基础上引入「思维链推理机制（CoT Reasoning）」，采用「课程采样强化学习策略（RLCS）」，系统性提升模型跨模态因果推理能力与稳定性。

轻量版 GLM-4.1V-9B-Thinking 模型参数控制在 10B 级别，其在 MMStar、MMMU-Pro等 28 项权威评测中，有 23 项达成 10B 级模型的最佳成绩，其中 18 项更是持平或超越参数量高达 72B 的 Qwen-2.5-VL。

官方表示，GLM-4.1V-9B-Thinking 在图文理解、数学与科学推理、视频理解、GUI 与网页智能体任务、视觉锚定与实体定位等五大方面表现卓越，展示出高度的通用性与稳健性。

目前，GLM-4.1V-9B-Thinking 已在 GitHub、HuggingFace、魔搭社区开源，并公布了技术论文、API 接口文档，本次上线 GLM-4.1V-9B-Base 基座模型和 GLM-4.1V-9B-Thinking 两款模型。

论文链接：https://arxiv.org/abs/2507.01006

GitHub：https://github.com/THUDM/GLM-4.1V-Thinking

HuggingFace：https://huggingface.co/collections/THUDM/glm-41v-thinking-6862bbfc44593a8601c2578d

魔搭社区：https://modelscope.cn/collections/GLM-41V-35d24b6def9f49

API 接口文档：https://www.bigmodel.cn/dev/api/visual-reasoning-model/glm-4.1v-thinking

智谱还推出了全新生态平台「Agent 应用空间」。

据悉，「Agent 应用空间」是一个面向企业客户和开发者的 AI Agent 能力聚合平台，平台汇聚丰富的 Agent 应用与模型插件（MCP），提供开箱即用、灵活编排的组件服务和 Agents 应用，帮助企业无需自建大模型团队。

另外，在 7 月 2 日的智谱开放平台产业生态大会上，还公布了浦东创投集团和张江集团对智谱总额 10 亿元的战略投资，并于近期完成首笔交割。

声明：内容来源公开的各类媒体平台，若收录的内容侵犯了您的权益，请联系邮箱，本站将第一时间处理。

{{userData.name}}已认证

智谱开源新一代通用视觉语言模型

多家高校被曝论文暗藏指令，诱导 AI 打高分

全球 AI 人才榜单首次曝光：华人撑起半边天，DeepSeek 无人上榜

AI微博

AI应用

5000+AI应用！每日更新

1AICLUB

强烈推荐！官方品牌微博

AI教程

海量教程看不完

AI基础训练营

零基础入门，带你成为AI高手

1ai抖音

1ai大神

抖音号：1ai.net

1ai大神

抖音号：1ai.net

1ai微信

每天五分钟

一年变大神

扫码关注

{{userData.name}}已认证

相关内容：

多家高校被曝论文暗藏指令，诱导 AI 打高分

全球 AI 人才榜单首次曝光：华人撑起半边天，DeepSeek 无人上榜

告别“默片”：智谱发布新清影，可生成 10 秒 4K60 帧 / 自带音效视频

Hugging Face 发布 SmolVLM 开源 AI模型：20 亿参数，用于端侧推理，体积小、速度快

智谱首个能生成汉字的开源文生图模型 CogView4 发布，60 亿参数

智谱获浦东创投、张江集团 10 亿元战略投资，开源发布新一代通用视觉语言模型 GLM-4.1V-Thinking

AI应用

5000+AI应用！每日更新

1AICLUB

强烈推荐！官方品牌微博

AI教程

海量教程看不完

AI基础训练营

零基础入门，带你成为AI高手

1ai大神

抖音号：1ai.net

1ai大神

抖音号：1ai.net

每天五分钟

一年变大神

扫码关注