排行榜 - C-Eval

更新于2025/07/26：自2023年C-Eval发布以来，我们一直将测试集保密以避免泄漏，用户需要上传预测结果才能获得测试分数。现在我们决定停止维护该排行榜，并将测试集公开，方便用户可以直接在C-Eval测试集上进行评测，你可以直接前往 Huggingface 下载使用C-Eval测试集。我们将不再更新下方的排行榜（未来也会从网站上移除该部分）。感谢大家在评测中使用C-Eval :)

不同科目和平均的测试结果展示如下。以下结果代表zero-shot或者few-shot测试（模型描述包括prompt形式可点进模型查看）。

（注：* 表示该模型结果由 C-Eval 团队测试得到，而其他结果是通过用户提交的模型预测计算分数得到。）

公开访问的模型

#	模型名称	发布机构	访问方式	提交时间	平均	平均(Hard)	STEM	社会科学	人文科学	其他

受限访问的模型

#	模型名称	发布机构	访问方式	提交时间	平均	平均(Hard)	STEM	社会科学	人文科学	其他