小红书hi lab首次开源文本大模型,包括多个训练检查点

小红书hi lab开源dots.llm1大模型,采用MoE架构,总参数142B但仅激活14B,经11.2T高质量数据训练后性能可媲美Qwen2.5-72B;团队首次开源完整训练过程中每1T token的检查点,包括Pretrain与Instruct阶段共14个checkpoint,对研究大模型学习动态提供宝贵基础;通过优化数据处理流程、AlltoAll通信重叠和Grouped GEMM实现,大幅提升训练效率,使用更少算力达到同等性能水平。

搜索