史上最严中文真实性评估:OpenAI o1第1豆包第2,其它全部不及格 

淘宝天猫集团研究者提出中文简短问答基准,首个全面中文评估工具,通过3000个高质量问题涵盖六大主题,评估大语言模型在中文语境下的真实性。具有中文、多样性、高质量、静态性和易于评估五大特征,帮助开发者理解模型的能力,改善中文语言模型的发展。(量子位)

搜索