昨日,智谱正式推出并开源了新一代通用视觉语言模型 GLM-4.1V-Thinking,号称「GLM 系列视觉模型实现从感知走向认知的关键跃迁」。

具体来看,GLM-4.1V-Thinking 是一款支持图像、视频、文档等多模态输入的通用推理型大模型,专为复杂认知任务设计。其在 GLM-4V 架构基础上引入「思维链推理机制(CoT Reasoning)」,采用「课程采样强化学习策略(RLCS)」,系统性提升模型跨模态因果推理能力与稳定性。
轻量版 GLM-4.1V-9B-Thinking 模型参数控制在 10B 级别,其在 MMStar、MMMU-Pro等 28 项权威评测中,有 23 项达成 10B 级模型的最佳成绩,其中 18 项更是持平或超越参数量高达 72B 的 Qwen-2.5-VL。
官方表示,GLM-4.1V-9B-Thinking 在图文理解、数学与科学推理、视频理解、GUI 与网页智能体任务、视觉锚定与实体定位等五大方面表现卓越,展示出高度的通用性与稳健性。
目前,GLM-4.1V-9B-Thinking 已在 GitHub、HuggingFace、魔搭社区开源,并公布了技术论文、API 接口文档,本次上线 GLM-4.1V-9B-Base 基座模型和 GLM-4.1V-9B-Thinking 两款模型。
论文链接:https://arxiv.org/abs/2507.01006
GitHub:https://github.com/THUDM/GLM-4.1V-Thinking
HuggingFace:https://huggingface.co/collections/THUDM/glm-41v-thinking-6862bbfc44593a8601c2578d
魔搭社区:https://modelscope.cn/collections/GLM-41V-35d24b6def9f49
API 接口文档:https://www.bigmodel.cn/dev/api/visual-reasoning-model/glm-4.1v-thinking
智谱还推出了全新生态平台「Agent 应用空间」。
据悉,「Agent 应用空间」是一个面向企业客户和开发者的 AI Agent 能力聚合平台,平台汇聚丰富的 Agent 应用与模型插件(MCP),提供开箱即用、灵活编排的组件服务和 Agents 应用,帮助企业无需自建大模型团队。
另外,在 7 月 2 日的智谱开放平台产业生态大会上,还公布了浦东创投集团和张江集团对智谱总额 10 亿元的战略投资,并于近期完成首笔交割。