DeepSeek 内测「识图模式」，多模态新模型或将发布

资讯
4月30日
編輯

admin

4 月 30 日消息，DeepSeek 昨日开启「识图模式」测试，与现有的「快速模式」、「专家模式」并列，具备完整的多模态图像理解能力，并非简单的 OCR 文字识别。

从实测表现来看，DeepSeek 识图模式的整体准确率较高，在不开启思考模式的情况下，最快半秒即可给出回答。对于电影剧照、抽象图片、商品图等常见场景，识别与理解表现良好。

更值得关注的是其思考过程：在描述画面内容之外，还会主动追问发布者身份、图像隐喻与潜台词，并在推理过程中多次自我纠正，甚至在给出结论前，自发列出问题逐一验证前提假设，呈现出接近人类阅读习惯的推理逻辑。

不过，识图模式目前仍存在明显局限。经典的「数手指」测试中，DeepSeek 首次作答出错，自称「数晕了」，但在用户引导或提示后能够给出正确答案。

此外，识图过程暂不支持联网搜索，仅依赖模型自身知识库作答，对于较新的事物，如苹果今年推出的吉祥物「Finder 酱」，无法识别。

而就在昨天，DeepSeek 多模态团队研究员 Xiaokang Chen 在 X 上发文「Now, we see you. 👀」，并配图 DeepSeek 鲸鱼吉祥物从「蒙眼」到「睁眼」的对比，外界普遍将其解读为多模态新模型即将上线的预告。

声明：内容来源公开的各类媒体平台，若收录的内容侵犯了您的权益，请联系邮箱，本站将第一时间处理。

{{userData.name}}已认证

DeepSeek 内测「识图模式」，多模态新模型或将发布

马斯克 v. 奥特曼官司正式开打，马斯克：偷走慈善机构是不对的，OpenAI：他只是「酸葡萄」，没得到他想要的

AI 分词器存在「语言歧视」：用印地语问 Claude，token 消耗是英文的 3 倍以上

AI微博

AI应用

5000+AI应用！每日更新

1AICLUB

强烈推荐！官方品牌微博

AI教程

海量教程看不完

AI基础训练营

零基础入门，带你成为AI高手

1ai抖音

1ai大神

抖音号：1ai.net

1ai大神

抖音号：1ai.net

1ai微信

每天五分钟

一年变大神

扫码关注

{{userData.name}}已认证

相关内容：

马斯克 v. 奥特曼官司正式开打，马斯克：偷走慈善机构是不对的，OpenAI：他只是「酸葡萄」，没得到他想要的

AI 分词器存在「语言歧视」：用印地语问 Claude，token 消耗是英文的 3 倍以上

DeepSeek开源DeepSeek-V2-Chat-0628模型 代码、数学推理能力提升

OpenAI：有证据表明 DeepSeek 使用了我们的模型进行训练

为DeepSeek辟谣：五大误解与真相解读

OPPO ColorOS 小布助手完成 DeepSeek R1 最新版升级

AI应用

5000+AI应用！每日更新

1AICLUB

强烈推荐！官方品牌微博

AI教程

海量教程看不完

AI基础训练营

零基础入门，带你成为AI高手

1ai大神

抖音号：1ai.net

1ai大神

抖音号：1ai.net

每天五分钟

一年变大神

扫码关注

DeepSeek开源DeepSeek-V2-Chat-0628模型代码、数学推理能力提升