DeepSeek 内测「识图模式」,多模态新模型或将发布

4 月 30 日消息,DeepSeek 昨日开启「识图模式」测试,与现有的「快速模式」、「专家模式」并列,具备完整的多模态图像理解能力,并非简单的 OCR 文字识别。

DeepSeek 内测「识图模式」,多模态新模型或将发布

从实测表现来看,DeepSeek 识图模式的整体准确率较高,在不开启思考模式的情况下,最快半秒即可给出回答。对于电影剧照、抽象图片、商品图等常见场景,识别与理解表现良好。

更值得关注的是其思考过程:在描述画面内容之外,还会主动追问发布者身份、图像隐喻与潜台词,并在推理过程中多次自我纠正,甚至在给出结论前,自发列出问题逐一验证前提假设,呈现出接近人类阅读习惯的推理逻辑。

不过,识图模式目前仍存在明显局限。经典的「数手指」测试中,DeepSeek 首次作答出错,自称「数晕了」,但在用户引导或提示后能够给出正确答案。

此外,识图过程暂不支持联网搜索,仅依赖模型自身知识库作答,对于较新的事物,如苹果今年推出的吉祥物「Finder 酱」,无法识别。

而就在昨天,DeepSeek 多模态团队研究员 Xiaokang Chen 在 X 上发文「Now, we see you. 👀」,并配图 DeepSeek 鲸鱼吉祥物从「蒙眼」到「睁眼」的对比,外界普遍将其解读为多模态新模型即将上线的预告。

声明:内容来源公开的各类媒体平台,若收录的内容侵犯了您的权益,请联系邮箱,本站将第一时间处理。
资讯

马斯克 v. 奥特曼官司正式开打,马斯克:偷走慈善机构是不对的,OpenAI:他只是「酸葡萄」,没得到他想要的

2026-4-30 11:37:42

资讯

AI 分词器存在「语言歧视」:用印地语问 Claude,token 消耗是英文的 3 倍以上

2026-4-30 11:40:37

搜索