更新于2025/07/26:自2023年C-Eval发布以来,我们一直将测试集保密以避免泄漏,用户需要上传预测结果才能获得测试分数。现在我们决定停止维护该排行榜,并将测试集公开,方便用户可以直接在C-Eval测试集上进行评测,你可以直接前往 Huggingface 下载使用C-Eval测试集。我们将不再更新下方的排行榜(未来也会从网站上移除该部分)。感谢大家在评测中使用C-Eval :)
不同科目和平均的测试结果展示如下。 以下结果代表zero-shot或者few-shot测试(模型描述包括prompt形式可点进模型查看)。
(注:* 表示该模型结果由 C-Eval 团队测试得到,而其他结果是通过用户提交的模型预测计算分数得到。)
# | 模型名称 | 发布机构 | 访问方式 | 提交时间 | 平均 | 平均(Hard) | STEM | 社会科学 | 人文科学 | 其他 |
# | 模型名称 | 发布机构 | 访问方式 | 提交时间 | 平均 | 平均(Hard) | STEM | 社会科学 | 人文科学 | 其他 |