出门问问将向公众开放部分训练数据集,这些数据集属于他们的超大规模语言模型“序列猴子”,被称为“序列猴子开源数据集1.0”。这次开源的数据集包含了中文通用文本语料、古诗今译语料以及文本生成语料,经过精心挑选和整理,以确保数据质量和格式的准确性。此外,出门问问采用宽松的许可协议,为广大开发者和研究人员提供了方便的使用条件。
GitHub链接:
https://github.com/mobvoi/seq-monkey-data
出门问问将向公众开放部分训练数据集,这些数据集属于他们的超大规模语言模型“序列猴子”,被称为“序列猴子开源数据集1.0”。这次开源的数据集包含了中文通用文本语料、古诗今译语料以及文本生成语料,经过精心挑选和整理,以确保数据质量和格式的准确性。此外,出门问问采用宽松的许可协议,为广大开发者和研究人员提供了方便的使用条件。
GitHub链接:
https://github.com/mobvoi/seq-monkey-data
扫码打开当前页
之前