智谱AI推出中文大模型对齐评测基准AlignBench

12月14日

admin

智谱AI发布了针对中文大模型的首个评测基准AlignBench，可以在多个维度上对模型与人类意图的对齐水平进行细致评估。AlignBench建立了一个综合全面的分类体系，分为8个大类。为了实现自动化和可复现性，AlignBench采用评分模型（GPT-4、CritiqueLLM）为每个模型的回答打分，分数范围为1-10，代表回答的质量。智谱AI使用gpt-4-0613和CritiqueLLM作为评分模型，对17个中文大模型进行了评估。结果显示，相较于GPT-4，在逻辑推理能力上，中文大模型存在较大差距，但在中文相关能力（尤其是中文理解类）方面，表现相近甚至更好。顶尖的开源模型在对齐性方面接近闭源模型，已经处于同一水平。

论文地址：
https://arxiv.org/abs/2311.18743
项目地址：
https://llmbench.ai/align

TOP1

华为云发布自研龙虾办公智能体 OfficeClaw：快速生成专业 PPT、智能整理本地文件，支持微信一键扫码直连
4月17日
TOP2

OpenClaw 贡献者：把 AI 工作流搭在 Claude Cowork 上，就是邀请别人剥削你十年
4月17日
TOP3

黄仁勋：若 DeepSeek 率先在华为平台上出现，「对美国将是可怕的结果」
4月17日
Codex 发布大更新：后台操控 Mac、生成图像、自主记忆用户偏好
4月17日
Claude Opus 4.7 深夜上线，编程能力大幅跃升
4月17日

❯

搜索

幸运之星即将降临……

点击领取今天的签到奖励！

恭喜！您今天获得了{{mission.data.mission.credit}}积分

今日签到

连续签到

{{item.credit}}

连续{{item.count}}天

查看所有

我的优惠

_￥_優惠

使用時效：无法使用

使用時效：
之前

使用時效：预期有效

优惠编号：
×

限制以下商品使用：限制以下商品分类用途：不限制使用：

[{{ct.name}}]

所有商品及商品类型需求使用

没有优惠可用！

购物车

×

德

空空如也！

清空貨櫃前往

您的有新私信

没有新私信

写新私信查看全部

{{userData.name}}已认证

智谱AI推出中文大模型对齐评测基准AlignBench

华为云发布自研龙虾办公智能体 OfficeClaw：快速生成专业 PPT、智能整理本地文件，支持微信一键扫码直连

OpenClaw 贡献者：把 AI 工作流搭在 Claude Cowork 上，就是邀请别人剥削你十年

黄仁勋：若 DeepSeek 率先在华为平台上出现，「对美国将是可怕的结果」

Codex 发布大更新：后台操控 Mac、生成图像、自主记忆用户偏好

Claude Opus 4.7 深夜上线，编程能力大幅跃升

AI微博

AI应用

5000+AI应用！每日更新

1AICLUB

强烈推荐！官方品牌微博

AI教程

海量教程看不完

AI基础训练营

零基础入门，带你成为AI高手

1ai抖音

1ai大神

抖音号：1ai.net

1ai大神

抖音号：1ai.net

1ai微信

每天五分钟

一年变大神

扫码关注