排行榜 - C-Eval

更新于2025/07/26:自2023年C-Eval发布以来,我们一直将测试集保密以避免泄漏,用户需要上传预测结果才能获得测试分数。现在我们决定停止维护该排行榜,并将测试集公开,方便用户可以直接在C-Eval测试集上进行评测,你可以直接前往 Huggingface 下载使用C-Eval测试集。我们将不再更新下方的排行榜(未来也会从网站上移除该部分)。感谢大家在评测中使用C-Eval :)

不同科目和平均的测试结果展示如下。 以下结果代表zero-shot或者few-shot测试(模型描述包括prompt形式可点进模型查看)。

(注:* 表示该模型结果由 C-Eval 团队测试得到,而其他结果是通过用户提交的模型预测计算分数得到。)

公开访问的模型

# 模型名称 发布机构 访问方式 提交时间 平均 平均(Hard) STEM 社会科学 人文科学 其他


受限访问的模型

# 模型名称 发布机构 访问方式 提交时间 平均 平均(Hard) STEM 社会科学 人文科学 其他