单卡日处理 20 万页文档，DeepSeek-OCR 开源上线

资讯
25年10月21日
編輯

admin

10 月 21 日消息，据「Al寒武纪」报道，DeepSeek 团队近日发布全新研究成果 DeepSeek-OCR，提出「上下文光学压缩」方法，为大模型长文本处理带来突破性思路。

研究显示，通过将长文本渲染为图像，再转化为视觉 token，能够在保持高精度的同时显著降低计算成本。

实验数据显示，在小于 10 倍压缩率下，OCR 解码准确率高达 97%；即便在 20 倍超高压缩率下，准确率仍能维持在约 60%。在权威文档解析基准 OmniDocBench 上，该模型以更少的视觉 token 超越了多项主流 SOTA 模型。

在实际应用中，单台 A100-40G GPU 每天可处理超过 20 万页文档，为大模型训练提供海量数据支持。

目前，相关代码与模型权重已在 GitHub 与 Hugging Face 平台开源。

💻 GitHub：https://github.com/deepseek-ai/DeepSeek-OCR/

🤗 Hugging Face：https://huggingface.co/deepseek-ai/DeepSeek-OCR

声明：内容来源公开的各类媒体平台，若收录的内容侵犯了您的权益，请联系邮箱，本站将第一时间处理。

{{userData.name}}已认证

单卡日处理 20 万页文档，DeepSeek-OCR 开源上线

触觉感知接近人类水平，Sharpa Robotics 推出全新仿生机械手

OpenAI 的网络浏览器：ChatGPT Atlas 正式发布，能让 AI“替你上网”

AI微博

AI应用

5000+AI应用！每日更新

1AICLUB

强烈推荐！官方品牌微博

AI教程

海量教程看不完

AI基础训练营

零基础入门，带你成为AI高手

1ai抖音

1ai大神

抖音号：1ai.net

1ai大神

抖音号：1ai.net

1ai微信

每天五分钟

一年变大神

扫码关注

{{userData.name}}已认证

相关内容：

触觉感知接近人类水平，Sharpa Robotics 推出全新仿生机械手

OpenAI 的网络浏览器：ChatGPT Atlas 正式发布，能让 AI“替你上网”

DeepSeek 深夜再放大招：7B 参数人人可用的视觉多模态模型 Janus-Pro-7B 开源

Mistral 拥抱开源：预告新AI模型，将超越 DeepSeek

李开复：如果十年后回顾 DeepSeek 如何让中国未落后美国，答案是开源

DeepSeek-V3.2-Exp 模型正式发布并开源，API 大幅降价

AI应用

5000+AI应用！每日更新

1AICLUB

强烈推荐！官方品牌微博

AI教程

海量教程看不完

AI基础训练营

零基础入门，带你成为AI高手

1ai大神

抖音号：1ai.net

1ai大神

抖音号：1ai.net

每天五分钟

一年变大神

扫码关注