谷歌全新Scaling Law!DiLoCo被证明更好、更快、更强

谷歌推出DiLoCo训练方法,比传统数据并行方式更稳健、高效,可在多数据中心大规模训练大语言模型;DiLoCo在大模型训练中表现出色,能降低带宽需求、容忍更大批处理,随模型规模增大优势更明显;AI行业面临发展岔路:继续Chinchilla路线增加算力与数据,或转向推理模型等轻量级替代方案,差距或达3万亿美元。

搜索