开源15T tokens!HuggingFace放出规模最大、质量最高预训练数据集

HuggingFace发布了15T+ tokens的FineWeb数据集,专为英语文本预训练,是目前最大规模且最高质量的开源数据集;FineWeb数据集经过专门优化,包括去重和清洗,确保了高质量,主要用于LLM的公共数据研究;数据集经消融实验验证,显示其质量超过其他开源数据集,预期将进一步提高AI模型的训练效果。(新智元)

购物车
優惠
搜索