智谱AI发布了针对中文大模型的首个评测基准AlignBench,可以在多个维度上对模型与人类意图的对齐水平进行细致评估。AlignBench建立了一个综合全面的分类体系,分为8个大类。为了实现自动化和可复现性,AlignBench采用评分模型(GPT-4、CritiqueLLM)为每个模型的回答打分,分数范围为1-10,代表回答的质量。智谱AI使用gpt-4-0613和CritiqueLLM作为评分模型,对17个中文大模型进行了评估。结果显示,相较于GPT-4,在逻辑推理能力上,中文大模型存在较大差距,但在中文相关能力(尤其是中文理解类)方面,表现相近甚至更好。顶尖的开源模型在对齐性方面接近闭源模型,已经处于同一水平。
论文地址:
https://arxiv.org/abs/2311.18743
项目地址:
https://llmbench.ai/align