C-Eval

一个适用于大语言模型的多层次多学科
中文评估套件

(2023)

 

关于 C-Eval


C-Eval 是一个全面的中文基础模型评估套件。它包含了13948个多项选择题,涵盖了52个不同的学科和四个难度级别,如下所示。您可以在 探索 中查看我们的数据集示例,或查看我们的论文了解更多细节。

overview.png

数据

我们的数据可以直接从Huggingface数据集下载。请参考我们的GitHub了解如何读取和使用数据。

引用

@inproceedings{huang2023ceval,
title={C-Eval: A Multi-Level Multi-Discipline Chinese Evaluation Suite for Foundation Models},
author={Huang, Yuzhen and Bai, Yuzhuo and Zhu, Zhihao and Zhang, Junlei and Zhang, Jinghan and Su, Tangjun and Liu, Junteng and Lv, Chuancheng and Zhang, Yikai and Lei, Jiayi and Fu, Yao and Sun, Maosong and He, Junxian},
booktitle={Advances in Neural Information Processing Systems},
year={2023}
}
            

联系我们

对于 C-Eval 有任何问题?请通过 ceval.benchmark@gmail.com 联系我们, 或在 Github 上创建一个 issue。 如果您有可能的合作意向,请联系 junxianh@cse.ust.hk