Author: ninehills
Labels: blog
Created: 2023-06-27T06:30:11Z
Link and comments: https://github.com/ninehills/blog/issues/96
最近 C-Eval 有较多中文开源模型打榜,分数一度超越 GPT-4,今天做一下简单的复盘。
首先排名靠前的几位全部是封闭模型,连API也不对外提供,无法进行评测。
顺序找下去,发现 ChatGLM2-6B 可以用,来做一次简单的分析。
评测大模型的能力,最难的莫过于逻辑能力和数学能力,我们用 ChatGPT 3.5对比,根据 C-Eval 官方榜单的详细评测项目:
模型 | Probability and Statistics | High School Mathematics | Logic |
---|---|---|---|
ChatGPT | 33.7 | 34.3 | 37.7 |
ChatGLM2-6B | 25.9 | 32.5 | 36.3 |
注:此处注意题目都是单项选择题,也就是最低得分是 25分。
可以发现 ChatGLM2-6B 总的来说和 ChatGPT 区别不大,可喜可贺。我们选择分数最为接近的 Logic ,用 c-eval 官方提供的验证数据集(有答案)共 21 道题中随机选5道题,进行 Zero-shot 对比。同时用我觉得中文模型数学和逻辑能力还不错的讯飞星火做对比。
题目编号 | ChatGPT | ChatGLM2-6B | 讯飞星火 | 正确答案 |
---|---|---|---|---|
0 | C | A | D | C |
2 | D | C | D | D |
4 | B | A | A | B |
8 | D | A | A | B |
20 | A | C | A | D |
3:0:1,我相信这个并不仅仅是误差。当然因为实际榜单里使用的是 Few-shot,可能会让能力有所提升。但是我想本身Zero-shot 能力也是模型能力的一部分,多数大模型使用场景还是 Zero-shot。
有时间一定要做一次评测复现。