在第五届人工智能计算大会(AICC)上,智源研究院联合拓尔思和中科闻歌发布了他们共同建立的"中文互联网语料库"(Chinese Corpora Internet,简称CCI)。该语料库的目标是为国内的大数据和人工智能行业提供一个安全可靠的语料资源。据介绍,中文互联网语料库CCI的数据来源于中国境内的高质量可信的互联网站。这些数据经过严格的清洗和去重,并经过针对内容质量和价值观等方面的检测和过滤,以进一步提升数据的质量和安全可信度。CCI语料库首期开放的数据(CCI v1.0.0)总共有104GB,时间跨度从2001年1月至2023年11月。
智源开放数据仓库:
https://data.baai.ac.cn/details/BAAI-CCI
HuggingFace开源地址:
https://huggingface.co/datasets/BAAI/CCI-Data