DeepSeek 与北大联合开源 DSpark:高并发推理速度提升 60% 至 85%

DeepSeek 联合北京大学发布 DSpark 推理加速框架,旨在解决大语言模型高并发生产环境中的推理效率瓶颈,已部署于 DeepSeek-V4-Flash 与 DeepSeek-V4-Pro 预览版服务引擎。相比单 token 推测解码基线 MTP-1,同等吞吐量下单用户生成速度提升 60% 至 85%,相关论文、训练代码等已在 GitHub 开源。技术报告链接:https://github.com/deepseek-ai/DeepSpec/blob/main/DSpark_paper.pdf

搜索