上海人工智能实验室公布 7 个 AI 大模型的高考全科目测试结果。此次测试目的是评测大模型真实水平以推进技术进步,由“司南”负责人介绍。测试结果显示,书生・浦语 2.0 系列文曲星大模型、阿里通义千问大模型 Qwen2-72B 以及 GPT-4o 包揽文、理科前三甲,前三名文、理科成绩超过河南“一本”“二本”线。参与“高考”的大模型还有 Yi-1.5-34B、Qwen2-57B、GLM-4-9B 和 Mixtral 8×22B。此次评测具有全卷考试、考前开源、老师打分、完全公开的特征。在增加综合科目后,Qwen2-72B、GPT-4o、浦语文曲星包揽文、理科前三,阿里通义千问大模型 Qwen2-72B 是“文科状元”,浦语文曲星是理科第一。阅卷老师认为大模型与真人考生有差距,在逻辑推理和知识灵活应用方面差强人意,主观题答非所问,数学解题逻辑性差,对理化实验理解肤浅,还会伪造虚构内容。
测试细节:
https://github.com/open-compass/GAOKAO-Eval
