Author: ninehills
Labels: blog
Created: 2025-07-10T00:59:54Z
Link and comments: https://github.com/ninehills/blog/issues/129
注意:SFT数据集尤其是比较老的数据集质量其实低下,用 DeepSeek 等top模型重新回答下提问效果可能更好。
高质量数据集(有中文) | 大小 | 特点 |
---|---|---|
IndustryCorpus2 | 1TB Chinese / 2.2TB English | 进行行业分类(31个行业),并对数据质量评级。 |
Fineweb-Edu-Chinese-V2.1 | =1.5TBtokens | 有4.6B Tokens 高质量教育语料 |
m-a-p/Matrix | 4.69T tokens | 训练 MAP-Neo 模型的预训练数据集 |
Ultra-FineWeb | en 1T tokens / zh 120B tokens | 最新的,过滤的更好的数据集 |
opencsg/chinese-cosmopedia | zh 60B tokens | 参考 CosMopedia 创建的中文合成预训练数据集 |
数据处理工具:
| SFT 数据集 | 大小 | 语言 | 特点 | | ———————————————————————————————————————– | —- | ——– | —————————— | | m-a-p/neo_sft_phase2 | 109k | 中英 | MAP-Neo SFT 阶段2 Chat 数据,质量不错。 | | OpenCoder-LLM/opc-sft-stage1 | 3.2M | 中英(中文较少) | 从多个数据集中过滤和合成而来,有通用指令,更关注代码类数据。 | | OpenCoder-LLM/opc-sft-stage2 | 436k | 英 | 高质量的代码类数据。 | | BAAI/Infinity-Instruct | 7M | 中英(中文较少) | 多个尺寸的指令和对话数据。 | | hfl/ruozhiba_gpt4 | 4.9k | 中 | 著名的弱智吧+GPT4回答,对模型的能力有提升。 | | Mxode/Chinese-Instruct | 485k | 中 | 从多个数据集中筛选的中文指令数据集,价值较高。 | | SmolLM Instruct Datasets | - | 英 | 多个开源数据集。其中自我认知部分值得参考。 | | Magpie-Qwen2-Pro-200K-Chinese | 200k | 中 | 使用 MagPie 从 Qwen2-72B 中提取的指令集。 | | lenML/longwriter-6k-filtered | 666 | 英 | 长文本输出(写作) | | THUDM/LongAlign-10k | 10k | 中英 | 长文本输入 | | opencsg/smoltalk-chinese | 700k | 中 | 参考 SmolTalk 数据集创建的中文数据集 |
偏好数据集 | 大小 | 语言 | 特点 |
---|---|---|---|
llamafactory/DPO-En-Zh-20k | 20k | 中英 | 多个来源整理,质量较高,中英各10k |
unalignment-toxic-dpo-v0.2-zh_cn | 541 | 中 | 去除模型安全逻辑 |
ultrafeedback_binarized | 187k | 英 | 将 UltraFeedback改成二元偏好的数据集 |
opencsg/UltraFeedback-chinese | 58k | 中 | 多个中文资源库中收集了约58k条中文指令,使用DeepSeek V3 评分 |
推理数据集 | 类型 | 大小 | 语言 | 特点 |
---|---|---|---|---|
m-a-p/COIG-Writer | SFT | 914 | 中 | 高质量中文创作与思考过程蒸馏数据集 |
INTELLECT-2-RL-Dataset | RL | 285k | 英 | RL math/code 数据集带ground_truth |
open-thoughts/OpenThoughts3-1.2M | SFT | 1M | 英 | DeepSeek 蒸馏出的大量数据 |
Chinese-DeepSeek-R1-Distill-data-110k | SFT | 110k | 中 | 中文的 DeepSeek 蒸馏推理数据集 |
根据 DeepSeek V3、Qwen3 等最新模型的评测数据集调整而来,选取最新、最流行、最具有代表性的评测数据集。
评测数据集 | 类型 | 大小 | 语言 | 特点 |
---|---|---|---|---|
LiveBench | 综合(偏数学和代码) | 英 | 定时更新的综合评测集,质量较高 | |
AlignBench v1.1 | 多轮对话 | 683 | 中 | 中文对齐评测集,需要LLM作为裁判 |
IFEval | 指令遵循 | 英 | 自动打分 | |
大海捞针 | 长上下文 | 英 | 通过插入针的方法评测长上下文能力 | |
Arena-Hard | 多轮对话 | 英 | Arena 中比较难的问题,需要 LLM 作为裁判 | |
BFCL v3 | 函数调用 | 英 | 比较全面的函数调用评测集 | |
MMLU-Redux | 综合(世界知识) | 英 | MMLU的增强版本 | |
GPQA-Diamond | 综合(世界知识、复杂推理) | 英 | GPQA 中比较难的问题(博士级别) | |
AIME’24 | 数学推理 | 英 | 2024年的AIME数据集 | |
LiveCodeBench v5 | 代码生成 | 英 | 定时更新的代码生成评测集 | |
C-Eval | 综合(世界知识) | 中 | 中文场景下的综合评测集,目前模型多过拟合。 | |
CMMLU | 综合(世界知识) | 中 | 中文场景下的综合评测集,目前模型多过拟合。 | |
MATH-500 | 数学推理 | 英 | OpenAI 的MATH数据集 | |
AIME’25 | 数学推理 | 英 | 2025年的AIME数据 | |
RULER | 长上下文 | 英 | 评测模型上上下文的能力 |