中国电信开源星辰语义大模型 TeleChat-7B 版本,并开放了 1T 清洗数据集。此外,中国电信还将在 1 月 20 日开源 12B 版本模型,以吸引更多开发者共建开源大模型生态。星辰语义大模型是由中电信人工智能科技有限公司研发训练的大语言模型,采用 1.5 万亿 Tokens 中英文语料进行训练。该模型提出了缓解多轮幻觉的解决方案,通过关键信息注意力增强、知识图谱强化、多轮知识强化、知识溯源能力四大技术,将 AI 大模型的幻觉率降低了 40%,有助于大模型变得更有“人味”,理解问题语境。在中国电信内部和对外企事业单位客户的业务中,星辰语义大模型应用于行文写作、代码编程、网络故障分析、经营分析、企业经营分析、政务公开咨询、民生诉求接待等场景,并取得了良好的效果。此外,该模型已与华为昇腾 AI 基础软硬件完成适配,在模型开发上取得了一定成果。
开源地址:
https://huggingface.co/Tele-AI/telechat-7B