单卡日处理 20 万页文档,DeepSeek-OCR 开源上线

10 月 21 日消息,据「Al寒武纪」报道,DeepSeek 团队近日发布全新研究成果 DeepSeek-OCR,提出「上下文光学压缩」方法,为大模型长文本处理带来突破性思路。

单卡日处理 20 万页文档,DeepSeek-OCR 开源上线

研究显示,通过将长文本渲染为图像,再转化为视觉 token,能够在保持高精度的同时显著降低计算成本。

实验数据显示,在小于 10 倍压缩率下,OCR 解码准确率高达 97%;即便在 20 倍超高压缩率下,准确率仍能维持在约 60%。在权威文档解析基准 OmniDocBench 上,该模型以更少的视觉 token 超越了多项主流 SOTA 模型。

在实际应用中,单台 A100-40G GPU 每天可处理超过 20 万页文档,为大模型训练提供海量数据支持。

目前,相关代码与模型权重已在 GitHub 与 Hugging Face 平台开源

💻 GitHub:https://github.com/deepseek-ai/DeepSeek-OCR/

🤗 Hugging Face:https://huggingface.co/deepseek-ai/DeepSeek-OCR

声明:内容来源公开的各类媒体平台,若收录的内容侵犯了您的权益,请联系邮箱,本站将第一时间处理。
资讯

触觉感知接近人类水平,Sharpa Robotics 推出全新仿生机械手

2025-10-21 12:26:46

资讯

OpenAI 的网络浏览器:ChatGPT Atlas 正式发布,能让 AI“替你上网”

2025-10-22 12:00:29

搜索