GPT-4 Turbo中文基准评测出炉

基于SuperCLUE通用大模型综合性中文测评基准,测评人员对GPT-4 Turbo进行了全面评估。测评包括606道多轮简答题,涵盖专业技能与知识、语言理解与生成、AI智能体和安全性四个维度的十项基础任务。结果显示,在SuperCLUE-OPEN基准上,GPT-4 Turbo表现出较大的综合能力优势,并且没有出现竞争对手,其中有8项基础任务获得满分。与上一代GPT-4模型相比,GPT-4 Turbo取得了巨大的10.33分提升。在国内大模型中,GPT-4 Turbo的总分比最强模型高出30分以上,进一步拉大了差距。

搜索