排行榜 - C-Eval

声明: 任何评测都有其局限性,以及任何的榜单都可以被不健康的刷榜。尤其是在大模型时代,大部分模型并未公开,用户也无法在实际应用中验证这些模型。 例如,在榜单上得到高分的方式有:从GPT-4的预测结果蒸馏,找人工标注然后蒸馏,在网上找到原题加入训练集中微调模型 -- 然而这样得到的分数是没有意义的。因此,我们建议用户谨慎看待以下榜单。 我们同时也将榜单拆分成2个: (1) 公开访问的模型 -- 这些模型有公开权重或者API,用户可以自行检查验证它们的效果; (2) 受限访问的模型: 这些模型暂时没有对公众开放。

不同科目和平均的测试结果展示如下。 以下结果代表zero-shot或者few-shot测试(模型描述包括prompt形式可点进模型查看)。 随时欢迎你们向C-Eval提交模型的预测(zero-shot或者few-shot的结果都可以),我们的提交系统会根据预测自动计算分数。点击 这里 开始提交(默认情况下你的提交结果只对你自己可见,并不会公开在排行榜上,你可以在提交界面请求公开)。

(注:* 表示该模型结果由 C-Eval 团队测试得到,而其他结果是通过用户提交的模型预测计算分数得到。)

公开访问的模型

# 模型名称 发布机构 访问方式 提交时间 平均 平均(Hard) STEM 社会科学 人文科学 其他


受限访问的模型

# 模型名称 发布机构 访问方式 提交时间 平均 平均(Hard) STEM 社会科学 人文科学 其他