深度求索:开源7B数学大模型DeepSeekMath

国内AI创企深度求索(DeepSeek)最近开源了7B数学大模型DeepSeekMath。据悉,DeepSeekMath的数据来自Common Crawl提取的120B高质量数学网页数据,总数据量是开源数据集OpenWebMath的9倍;训练时使用了代码领域模型DeepSeek-Coder-v1.5作为初始化,可以获得比通用模型初始化更好的数学能力。DeepSeekMath在中英数学基准榜单上超过了Mistral 7B和Llemma-34B,接近了GPT-4的能力,效果与Minerva 540B相当。

论文地址:
https://arxiv.org/abs/2402.03300
模型下载:
https://huggingface.co/deepseek-ai
GitHub主页:
https://github.com/deepseek-ai/DeepSeek-Math

搜索