5 月 14日消息,昨日,面壁智能正式发布并开源 1.3B 端侧多模态大模型 MiniCPM-V 4.6,提供 Instruct 与 Thinking 两个版本。

Instruct 版本:面向通用图文理解、STEM 数理推理、文档 OCR、视频时序理解及目标定位等任务,超越 Qwen3.5-0.8B 与 Gemma4-E2B-it;
Thinking 版本:面向多图像关联推理、幻觉抑制等高阶任务,同样领先同尺寸竞品。
据介绍,MiniCPM-V 4.6 基于 vLLM 的 token 吞吐量是 Qwen3.5-0.8B 的 1.5 倍,AA 评测中 token 消耗仅为后者非推理版本的约 1/19;3136² 高清图像首响延迟为 75.7 ms,较 Qwen3.5-0.8B 快 2.2 倍。
💻 GitHub: github.com/OpenBMB/MiniCPM-V
🤗 Hugging Face: huggingface.co/openbmb/MiniCPM-V-4.6
👾 ModelScope: modelscope.cn/models/OpenBMB/MiniCPM-V-4.6