SuperCLUE发布2023中文大模型基准测评报告

SuperCLUE发布了《SuperCLUE中文大模型基准测评报告,2023》。该报告基于过去一年对国内外大模型发展趋势和综合效果的实时跟踪,通过多维度综合性测评,对国内外大模型发展现状进行观察和思考。报告指出,目前国内外大模型的差距依然明显。其中,GPT-4 Turbo以总分89.79分遥遥领先,高于国内所有大模型及国外代表性大模型。

报告称,过去一年国内大模型已经有了长足的进步,综合能力超过GPT-3.5的模型有8个,分别为百度的文心一言4.0、零一万物的Yi-34B-Chat、月之暗面的Moonshot、vivo的BlueLM、腾讯的混元、阿里云的通义千问2.0、清华&智谱AI的ChatGLM3以及字节跳动的云雀。此外,国内开源模型在中文上表现要好于国外开源模型,如百川智能的Baichuan2-13B-Chat、元象科技的XVERSE-13B-Chat-2、阿里云的Qwen-14、智谱AI的ChatGLM3-6B成绩均大幅优于Llama2-13B-Chat。

SuperCLUE官网地址:superclueai.com

搜索