blog

中文模型 C-Eval 评测结果简单小评测

Author: ninehills
Labels: blog
Created: 2023-06-27T06:30:11Z
Link and comments: https://github.com/ninehills/blog/issues/96

最近 C-Eval 有较多中文开源模型打榜,分数一度超越 GPT-4,今天做一下简单的复盘。

首先排名靠前的几位全部是封闭模型,连API也不对外提供,无法进行评测。

image

顺序找下去,发现 ChatGLM2-6B 可以用,来做一次简单的分析。

评测大模型的能力,最难的莫过于逻辑能力和数学能力,我们用 ChatGPT 3.5对比,根据 C-Eval 官方榜单的详细评测项目:

模型 Probability and Statistics High School Mathematics Logic
ChatGPT 33.7 34.3 37.7
ChatGLM2-6B 25.9 32.5 36.3

注:此处注意题目都是单项选择题,也就是最低得分是 25分。

可以发现 ChatGLM2-6B 总的来说和 ChatGPT 区别不大,可喜可贺。我们选择分数最为接近的 Logic ,用 c-eval 官方提供的验证数据集(有答案)共 21 道题中随机选5道题,进行 Zero-shot 对比。同时用我觉得中文模型数学和逻辑能力还不错的讯飞星火做对比。

题目编号 ChatGPT ChatGLM2-6B 讯飞星火 正确答案
0 C A D C
2 D C D D
4 B A A B
8 D A A B
20 A C A D

3:0:1,我相信这个并不仅仅是误差。当然因为实际榜单里使用的是 Few-shot,可能会让能力有所提升。但是我想本身Zero-shot 能力也是模型能力的一部分,多数大模型使用场景还是 Zero-shot。

有时间一定要做一次评测复现。