10 月 21 日消息,据「Al寒武纪」报道,DeepSeek 团队近日发布全新研究成果 DeepSeek-OCR,提出「上下文光学压缩」方法,为大模型长文本处理带来突破性思路。

研究显示,通过将长文本渲染为图像,再转化为视觉 token,能够在保持高精度的同时显著降低计算成本。
实验数据显示,在小于 10 倍压缩率下,OCR 解码准确率高达 97%;即便在 20 倍超高压缩率下,准确率仍能维持在约 60%。在权威文档解析基准 OmniDocBench 上,该模型以更少的视觉 token 超越了多项主流 SOTA 模型。
在实际应用中,单台 A100-40G GPU 每天可处理超过 20 万页文档,为大模型训练提供海量数据支持。
目前,相关代码与模型权重已在 GitHub 与 Hugging Face 平台开源。
💻 GitHub:https://github.com/deepseek-ai/DeepSeek-OCR/
🤗 Hugging Face:https://huggingface.co/deepseek-ai/DeepSeek-OCR