大模型评测体系:司南OpenCompass2.0发布

大型模型开源开放评测体系司南(OpenCompass2.0)正式发布,旨在为大语言模型、多模态模型等各类模型提供一站式评测服务。OpenCompass2.0全面量化了模型在知识、语言、理解、推理和考试等五大能力维度的表现,客观中立地为大型模型技术创新提供技术支持。OpenCompass2.0同时公布了2023年度大型模型公开评测榜单。评测结果显示,GPT-4 Turbo在各项评测中均表现最佳,智谱清言GLM-4、阿里巴巴Qwen-Max、百度文心一言4.0紧随其后;大语言模型整体能力仍有较大提升空间,复杂推理相关能力仍是短板;在中文场景下,国内的模型更具优势,中文闭源大型模型接近GPT-4 Turbo的水平,开源模型进步迅速,以较小的体量达到较高性能水平,表现出较大的发展潜力。

官网:
https://opencompass.org.cn/
CompassHub社区地址:
https://hub.opencompass.org.cn/home

搜索