开源大模型得分新纪录,阿里通义 Qwen3 模型拿下全球第三

阿里通义消息,国际知名大模型评测 Chatbot Arena 日前公布最新榜单,Qwen3-235B-A22B-Instruct-2507 斩获 1433分,超越顶尖闭源模型 Grok4、Claude4、GPT4.1,Qwen3 位列总榜「全球第三」。

开源大模型得分新纪录,阿里通义 Qwen3 模型拿下全球第三

据悉,Chatbot Arena 采用盲测评价机制,是 AI 大模型领域最具影响力的榜单之一。

此次 Qwen3 的 1433 分,是全球开源大模型和中国大模型的历史最高分。同时,Qwen3 还在 5 个关键能力子项中摘得「全球第一」,包括数学(math)、代码(coding)、复杂提示(hard prompts)、长文本检索(longer query)和指令遵循(instruction following)。

除 Qwen3 Instruct 模型外,Qwen3 家族多款模型也取得优秀成绩:

推理模型 Qwen3-235B-A22B-Thinking-2507 也闯进榜单前十,数学能力并列全球第一;

在 Chatbot Arena 专门评估编程能力的 WebDev Arena 子榜单中,编程模型 Qwen3-Coder 性能与 Gemini2.5 Pro、DeepSeek-R1、Claude4 并列第一。

声明:内容来源公开的各类媒体平台,若收录的内容侵犯了您的权益,请联系邮箱,本站将第一时间处理。
资讯

马斯克:虽没给出“离谱”的薪酬,多名 Meta 工程师正加入 xAI

2025-8-4 11:24:20

资讯

小米声音理解大模型 MiDashengLM-7B 发布并全量开源,22 个公开评测集刷新最好成绩

2025-8-4 11:37:25

搜索