-
华为宣布开源盘古 7B 稠密和 72B 混合专家模型
6 月 30 日消息,华为今日正式宣布开源盘古 70 亿参数的稠密模型、盘古 Pro MoE 720 亿参数的混合专家模型和基于昇腾的模型推理技术。 华为表示:“此举是华为践行昇腾生态战略的又一关键举措,推动大模型技术的研究与创新发展,加速推进人工智能在千行百业的应用与价值创造。” 盘古 Pro MoE 72B 模型权重、基础推理代码,已正式上线开源平台。 基于昇腾的超大规模 MoE 模型推理代码…- 918
-
月之暗面 Kimi 开源 Moonlight:30 亿 / 160 亿参数混合专家模型
2 月 24 日消息,月之暗面 Kimi 昨日发布了“Muon 可扩展用于 LLM 训练”的新技术报告,并宣布推出“Moonlight”:一个在 Muon 上训练的 30 亿 / 160 亿参数混合专家模型(MoE)。使用了 5.7 万亿个 token,在更低的浮点运算次数(FLOPs)下实现了更好的性能,从而提升了帕累托效率边界。 月之暗面称,团队发现 Muon 优化器可通过添加权重衰减、仔细调…- 9.2k
❯
搜索
扫码打开当前页
返回顶部
幸运之星即将降临……
点击领取今天的签到奖励!
恭喜!您今天获得了{{mission.data.mission.credit}}积分
我的优惠
-
¥優惠使用時效:无法使用使用時效:
之前
使用時效:预期有效优惠编号:×
没有优惠可用!


