智谱AI发布文本质量评价模型CritiqueLLM

智谱AI最近提出了一种名为CritiqueLLM的文本质量评价模型,该模型具有可解释性和可扩展性。它能够对各类指令下大型模型生成的结果进行高质量的评价分数和评价解释。评估结果表明,拥有660亿参数的CritiqueLLM在各项任务上与人工评分的相关系数均超过了ChatGPT,达到了与GPT-4相当的水平。尤其值得注意的是,在无参考文本的挑战性环境下,CritiqueLLM在综合问答、文本写作和中文理解等三个任务上超过了GPT-4,达到了目前最优的评价性能水平。

论文地址:
https://arxiv.org/abs/2311.18702
GitHub地址:
https://github.com/thu-coai/CritiqueLLM

搜索