上海人工智能实验室：公布AI 大模型“高考成绩” ：前三名文科过一本，理科过二本

7月19日

admin

上海人工智能实验室公布 7 个 AI 大模型的高考全科目测试结果。此次测试目的是评测大模型真实水平以推进技术进步，由“司南”负责人介绍。测试结果显示，书生・浦语 2.0 系列文曲星大模型、阿里通义千问大模型 Qwen2-72B 以及 GPT-4o 包揽文、理科前三甲，前三名文、理科成绩超过河南“一本”“二本”线。参与“高考”的大模型还有 Yi-1.5-34B、Qwen2-57B、GLM-4-9B 和 Mixtral 8×22B。此次评测具有全卷考试、考前开源、老师打分、完全公开的特征。在增加综合科目后，Qwen2-72B、GPT-4o、浦语文曲星包揽文、理科前三，阿里通义千问大模型 Qwen2-72B 是“文科状元”，浦语文曲星是理科第一。阅卷老师认为大模型与真人考生有差距，在逻辑推理和知识灵活应用方面差强人意，主观题答非所问，数学解题逻辑性差，对理化实验理解肤浅，还会伪造虚构内容。

测试细节：
https://github.com/open-compass/GAOKAO-Eval

{{userData.name}}已认证

上海人工智能实验室：公布AI 大模型“高考成绩” ：前三名文科过一本，理科过二本

用AI制作宠物吃播视频，百万流量爆款视频教程直接抄

小米突然发布新模型：媲美 DeepSeek-V3.2

Google、Shopify 前高管加盟 OpenAI

OpenAI 发布新生图模型，PK Nano Banana

豆包手机：首批货源已售罄，此前行业内传闻的备货数量均不准确

OpenAI 宣布：苹果 Apple Music 即将与 ChatGPT 集成

Meta 扩大员工使用竞争对手 AI工具权限，含 ChatGPT-5、 Gemini 3 Pro 等

AI Diagram Generator：图表生成器，AI一键生成流程图、思维导图、UML图等多种图表

AI微博

AI应用

5000+AI应用！每日更新

1AICLUB

强烈推荐！官方品牌微博

AI教程

海量教程看不完

AI基础训练营

零基础入门，带你成为AI高手

1ai抖音

1ai大神

抖音号：1ai.net

1ai大神

抖音号：1ai.net

1ai微信

每天五分钟

一年变大神

扫码关注