blog

大语言模型高质量数据集汇总(2025.5 更新)

Author: ninehills
Labels: blog
Created: 2025-07-10T00:59:54Z
Link and comments: https://github.com/ninehills/blog/issues/129

大语言模型高质量数据集汇总(2025.5 更新)

注意:SFT数据集尤其是比较老的数据集质量其实低下,用 DeepSeek 等top模型重新回答下提问效果可能更好。

预训练数据集

高质量数据集(有中文) 大小 特点
IndustryCorpus2 1TB Chinese / 2.2TB English 进行行业分类(31个行业),并对数据质量评级。
Fineweb-Edu-Chinese-V2.1 =1.5TBtokens 有4.6B Tokens 高质量教育语料
m-a-p/Matrix 4.69T tokens 训练 MAP-Neo 模型的预训练数据集
Ultra-FineWeb en 1T tokens / zh 120B tokens 最新的,过滤的更好的数据集
opencsg/chinese-cosmopedia zh 60B tokens 参考 CosMopedia 创建的中文合成预训练数据集

数据处理工具

SFT 数据集

| SFT 数据集 | 大小 | 语言 | 特点 | | ———————————————————————————————————————– | —- | ——– | —————————— | | m-a-p/neo_sft_phase2 | 109k | 中英 | MAP-Neo SFT 阶段2 Chat 数据,质量不错。 | | OpenCoder-LLM/opc-sft-stage1 | 3.2M | 中英(中文较少) | 从多个数据集中过滤和合成而来,有通用指令,更关注代码类数据。 | | OpenCoder-LLM/opc-sft-stage2 | 436k | 英 | 高质量的代码类数据。 | | BAAI/Infinity-Instruct | 7M | 中英(中文较少) | 多个尺寸的指令和对话数据。 | | hfl/ruozhiba_gpt4 | 4.9k | 中 | 著名的弱智吧+GPT4回答,对模型的能力有提升。 | | Mxode/Chinese-Instruct | 485k | 中 | 从多个数据集中筛选的中文指令数据集,价值较高。 | | SmolLM Instruct Datasets | - | 英 | 多个开源数据集。其中自我认知部分值得参考。 | | Magpie-Qwen2-Pro-200K-Chinese | 200k | 中 | 使用 MagPie 从 Qwen2-72B 中提取的指令集。 | | lenML/longwriter-6k-filtered | 666 | 英 | 长文本输出(写作) | | THUDM/LongAlign-10k | 10k | 中英 | 长文本输入 | | opencsg/smoltalk-chinese | 700k | 中 | 参考 SmolTalk 数据集创建的中文数据集 |

偏好数据集

偏好数据集 大小 语言 特点
llamafactory/DPO-En-Zh-20k 20k 中英 多个来源整理,质量较高,中英各10k
unalignment-toxic-dpo-v0.2-zh_cn 541 去除模型安全逻辑
ultrafeedback_binarized 187k 将 UltraFeedback改成二元偏好的数据集
opencsg/UltraFeedback-chinese 58k 多个中文资源库中收集了约58k条中文指令,使用DeepSeek V3 评分

推理数据集

推理数据集 类型 大小 语言 特点
m-a-p/COIG-Writer SFT 914 高质量中文创作与思考过程蒸馏数据集
INTELLECT-2-RL-Dataset RL 285k RL math/code 数据集带ground_truth
open-thoughts/OpenThoughts3-1.2M SFT 1M DeepSeek 蒸馏出的大量数据
Chinese-DeepSeek-R1-Distill-data-110k SFT 110k 中文的 DeepSeek 蒸馏推理数据集

评测数据集

根据 DeepSeek V3、Qwen3 等最新模型的评测数据集调整而来,选取最新、最流行、最具有代表性的评测数据集。

评测数据集 类型 大小 语言 特点
LiveBench 综合(偏数学和代码)   定时更新的综合评测集,质量较高
AlignBench v1.1 多轮对话 683 中文对齐评测集,需要LLM作为裁判
IFEval 指令遵循   自动打分
大海捞针 长上下文   通过插入针的方法评测长上下文能力
Arena-Hard 多轮对话   Arena 中比较难的问题,需要 LLM 作为裁判
BFCL v3 函数调用   比较全面的函数调用评测集
MMLU-Redux 综合(世界知识)   MMLU的增强版本
GPQA-Diamond 综合(世界知识、复杂推理)   GPQA 中比较难的问题(博士级别)
AIME’24 数学推理   2024年的AIME数据集
LiveCodeBench v5 代码生成   定时更新的代码生成评测集
C-Eval 综合(世界知识)   中文场景下的综合评测集,目前模型多过拟合。
CMMLU 综合(世界知识)   中文场景下的综合评测集,目前模型多过拟合。
MATH-500 数学推理   OpenAI 的MATH数据集
AIME’25 数学推理   2025年的AIME数据
RULER 长上下文   评测模型上上下文的能力