九原山

Pi Agent 个人配置

2026-05-15T00:00:00+00:00

经过好几周的摸索和各种尝试，pi agent 的配置基本稳定，之前发了一个 list，没有解释不太友好，这次发个全量带注释的。

首先 Pi Agent 的优点就是原生 Pi 的功能极其简单，而扩展机制非常完善，所以即使社区没有你需要的扩展，也很容易 Vibe 出一个自用。非常适合需要对 Agent 上下文进行精细控制的人。如果你需要的是开箱即用的产品，推荐还是使用 Claude Code 或者 Codex。

扩展选择原则：

占用上下文最小化，尽可能的摒弃大量注册 Tools 的行为
同类插件选更新活跃、功能齐全的。
有些不占用上下文没什么副作用，只是单纯显示优化和扩展功能的，入围标准很低。

最终 Tools 占用 7.7k tokens。

功能扩展类：增加MCP Adapter、WebSearch、SubAgent、Goal 等功能

npm:pi-mcp-adapter：使用 Lazy load 的方式加载 mcp 服务器，我基本全局不会开启 MCP，在某些特定项目上会用。
npm:pi-web-access：支持多个 Provider 的搜索聚合，效果很佳（社区有更多别的选择，可以自己找更好的实现）
npm:pi-btw：实现 /btw 功能，但是我很少用。
npm:@tintinweb/pi-subagents：尝试了多种实现，最终这个占用上下文 tokens 最少，用起来也还算稳定。
npm:pi-goal：实现 /goal 功能
npm:@juicesharp/rpiv-todo：实现 Todo 功能
npm:@juicesharp/rpiv-ask-user-question：实现结构化对用户提问的功能（可选，其实我不爱用，这个工具要占 1k tokens 上下文）
npm:@plannotator/pi-extension：提供网页可标注的 Plan 文件以及 Code Review。（挺好用的，但是它自带的逻辑有点多，我只需要交互式标注功能）
https://github.com/davebcn87/pi-autoresearch：增加 autoresearch 功能，不过我默认是禁用的，或者可以安装到项目级中，全局开启没必要。

功能优化和管理类：各种 TUI 优化、扩展管理、体验优化等

npm:@marckrenn/pi-sub-bar：显示各种订阅的用量信息，最近不咋更新了
npm:@tmustier/pi-usage-extension：增加 /usage 命令，查看 session 详细的统计信息。
git:github.com/fluxgear/pi-thinking-steps：将思考过程结构化显示，更美观
npm:pi-cache-graph：显示缓存命中率的变化，可用来 Debug 影响上下文的扩展
npm:pi-context-usage：增加 /context 命令，显示上下文的详细情况
npm:@ramarivera/pi-skill-selector: 优化了斜杠选择 skill 的交互体验
npm:pi-fallback-provider：可以配置一个虚拟模型，然后后面是多个模型组成的 Fallback Chain，这样当挂掉后可以自动fallback。（推荐要么就是相同模型跨不同的 Provider fallback，要么就是廉价模型组个 chain 完成特殊任务。不要混杂不同的模型，否则很难 debug ）
npm:pi-command-history：使用 Ctrl + Up 来找相同目录的历史 command。(Pi 默认 Up 只能着同 session 的，很怪)
npm:pi-discord-remote：这个插件很有意思，开启后它会为每个 session 都配置单独的会话，结束对话后自动销毁。这样在 discord 那边用起来就很简单，尤其是自动销毁。
npm:@vanillagreen/pi-extension-manager：可以不用卸载扩展，而是禁用扩展。这玩意很卡，可以不用。
npm:@vanillagreen/pi-session-manager：可以更好的在历史 session 中检索、跳转什么的，用处不大。

Agent 行为优化类：会修改 Pi Agent 自身行为，影响较大

npm:pi-rtk-optimizer：使用 rtk 大幅压缩 Bash Tool 的输出
npm:pi-caveman：Caveman 模式，可以让模型输出更少的废话（尤其是思维链）。如果模型用 gpt-5.5 off/low 的话没必要开，用一些思维链比较长的模型（比如 DeepSeek-V4-Pro high）的时候，可以考虑开启。默认我是关闭的。
npm:pi-context-prune：通过自动将 tools output summary & offload 来降低上下文占用。推荐要么是 agent-message 模式（也就是当 agent 完成任务后触发）或者 on-demand 模式（手动触发）。我是手动触发，从而最大限度规避 cache miss。
npm:@ff-labs/pi-fff：优化文件、内容的搜索功能，效果很好，推荐。
npm:pi-hashline-readmap：通过给文件每行增加一个 Hash Anchor 的方式，来解决大文件编辑失败的问题。还在测试效果。

原文发布于 GitHub Issue #162
创建于 2026-05-15T05:22:39Z，更新于 2026-05-25T00:28:33Z

OpenClaw 思考

2026-02-05T00:00:00+00:00

OpenClaw 产品形态：贾维斯（J.A.R.V.I.S.）

OpenClaw 和 Claude Code/Cowork 等 Agent 产品的核心区别有四：

	Manus/Claude Code/Claude Cowork 等通用 Agent 产品	OpenClaw
交互入口	以CLI、Web、桌面App 作为入口	以IM作为核心入口，主要在手机上使用。
交互方式	用户->Agent 的单向交互（用户下发任务，Agent 完成任务）	双向交互，Agent 可以根据 Cron、Heartbeat 机制主动执行任务和联系用户
Agent 生命周期	按需启动	7x24h 全天在线
Agent 运行环境	分散的或一次性的	持久的工作区和运行环境

OpenClaw 是完整的个人助理产品形态，7x24h 运行在个人电脑上，可响应指令也可主动发起任务。其产品形态意义等同于 Manus 之于通用智能体。

OpenClaw 技术实现：简单的通用 Agent 实现

核心概念和实现方式（部分概念虽好但实现欠佳，如 Node，此处不做展开）如下：

Gateway：统一的后台服务进程
Agent：Gateway 启动后可注册多个 Agent（智能体），每个 Agent 拥有独立的 Workspace（工作区）。
- 实现：基于 Pi 极简 Agent 框架，核心采用 ReACT（System Prompt + 工具使用）范式。
- SubAgent：子 Agent，允许在会话中启动子 Agent（子 Agent 仅共享工作区，不共享上下文），任务完成后向主 Agent 发送摘要。
Workspace：每个 Agent 独立的工作区，核心文件如下（均支持对话式隐式修改，例如用户说”从现在起你叫 Jack”，会自动更新 IDENTITY.md）
- AGENTS.md：相当于 CLAUDE.md，附加到 system prompt 中，定义 Agent 核心行为。
- IDENTITY.md：Agent 身份定义（名称、头像等）
- SOUL.md：Agent 核心人设或性格特征
- USER.md：用户偏好设置（称呼、习惯、地点等）
- MEMORY.md：每次会话前必读的核心记忆，例如默认语言等。
- memory/：记忆目录，除 Agent 自主生成外，按时间组织（2026-02-03-2134.md 或 2026-02-05.md），保存 Session 摘要。
- HEARTBEAT.md：定义心跳任务，每 30 分钟执行一次。
- TOOLS.md：工具使用指引，定义工具调用场景和条件。
Session：会话，每个 Agent 支持多个会话（如不同 IM 账号、群组、主题等），会话间上下文独立，但共享同一 Workspace。
- 会话上下文默认累积，除非达到上限触发压缩，或手动使用 /new 清空。
- 同一 Session 内，Agent 交互串行处理，新消息进入队列等待。
Channel：频道（通常为 IM），Agent 与用户交互的主要载体，支持常见聊天应用。
- 以 Telegram 为例：可配置多个 Bot，每个 Bot 可加入不同群组，每个群组可配置不同主题。
- 用户向 Bot 发起聊天后，会创建或复用已有 Session。
Cron and Heartbeat：定时任务和心跳机制。
- Heartbeat：每 30 分钟（可配置）在指定 Session 中（默认为主 Session）执行 HEARTBEAT.md 中的任务并发送消息。无需发送时返回 HEARTBEAT_OK。
- Cron：定时任务，指定特定 Agent，可选择新建 Session 或在特定 Session 中执行。
Tools & Skills：工具和技能体系
- 内置工具：Bash、文件编辑、Web Reader/Searcher、浏览器等。
  - 浏览器控制目前效果尚不理想。
- Skills：OpenClaw 通过 Skills 扩展能力，支持官方 Skill 和外部 Skill 目录。
- MCP vs Skill：
  - OpenClaw 默认不支持 MCP，这是很正确的实现。
    - 如确需调用已有 MCP Server，可以用 mcporter 命令行工具调用（封装为单独的 skill）
  - Skill 实现上优先使用 CLI 调用外部工具，而非 API 调用。
    - 当前 LLM 对 CLI 工具调用有较好理解，例如 qmd（文件搜索）、gogs（Gmail 控制）、agent-browser（浏览器控制）。

抛开那些不稳定的特性和兼容代码，OpenClaw 的核心功能很容易实现。

OpenClaw 个人案例

每次心跳检查我的新推、搜索感兴趣的领域、回顾对话历史等，并编写日记，推送到 Github pages中。比较有意思的一篇：知道与痛苦
单独的投资 Bot，检查我的持仓（截图后让其识别为本地 JSON文件），查询基本面和技术面，给出投资建议（加仓、建仓等）。交易日每个小时运行。

原文发布于 GitHub Issue #154
创建于 2026-02-05T07:03:29Z，更新于 2026-03-05T05:36:04Z

自主 Agent / 上下文工程资料索引

2026-01-04T00:00:00+00:00

自主 Agent / 上下文工程资料索引和个人的一些点评，基本以工程为主。学术界普遍集中在 Agent RL 上，这里不进行展开。

Building effective agents by Anthropic
- 【可选】24年12月的文章，比较鲜明的将 Workflow 和 Autonomous Agent 拆分，并着重在未来 Agent 的发展。
How we built our multi-agent research system by Anthropic
- 【必读】Anthropic 的博客文章，核心解析 Claude Deep Research 的技术框架，介绍了 SubAgent（Agent as Tool）、Todo tools 等方法。
Effective context engineering for AI agents by Anthropic
- 【必读】Anthropic 上下文工程标志性文章，包括上下文压缩、SubAgent、Agentic Memory 等方法的介绍。
Introducing advanced tool use on the Claude Developer Platform by Anthropic
- 【必读】介绍Tool Search Tool（工具搜索工具）、Programmatic Tool Calling（程序化工具调用）、Tool Use Examples（工具示例）三种范式，虽然实现细节被隐藏到 Claude API 之后，但不难复刻。
- 相关文章：
  - Code execution with MCP: Building more efficient agents Programmatic Tool Calling 范式的首次介绍。
Equipping agents for the real world with Agent Skills by Anthropic
- 【必读】介绍 Agent Skills 范式，Skills 目前是最优雅的 Agent 垂直能力注入方式，强烈建议采用。
Beyond permission prompts: making Claude Code more secure and autonomous Anthropic
- 【可选】Claude Code Sandbox 机制的介绍，同时有开源实现 sandbox-runtime 供参考，是比较轻量级的 Sandbox 实现。还可以通过 Container 来进行较重的实现。
Writing effective tools for agents — with agents by Anthropic
- 【必读】如何为 Agent 设计更有效的工具，不是把接口封装到 MCP Server 那么简单，参数、返回值、描述和错误信息都需要优化。
Claude Code: Best practices for agentic coding by Anthropic
- 【可选】跨时代的产品： Claude Code 的发布文章。
- 相关资料
  - Claude Code Changelog：追踪 Claude Code 的系统提示词的变化，能学到很多 Agent 设计技巧。
Building agents with the Claude Agent SDK by Anthropic
- 【必读】使用 Claude Agent SDK 开发自主 Agent，虽然效果依然最佳，但 Agent SDK 的底层是闭源的 Claude Code，谨慎使用。
Effective harnesses for long-running agents by Anthropic
- 【必读】讲设计长时运行 Agent 的一些经验，内容不多但有较大价值。
Context Engineering for Agents by Lance Martion and Langchain
- 【必读】上下文工程的另一个介绍，图主要来自于 Langchain 的 blog。
Context Engineering in Manus by Manus
- 【必读】Manus 的上下文工程的实践经验，虽然 Manus 争议很大，但他们在自主 Agent 领域至少和 Anthropic 一样走在行业前列。提到了上下文 Offload、Reduce和Isolate 等方法。此外自25年3月到10月，Manus 已经重构了 5 次，切记一点，Agent 处在架构和模型迅猛变更的环境中。
- 相关资料：视频 PPT 文字稿
Measuring AI Ability to Complete Long Tasks by METR
- 【可选】我经常引用的评测结果：自主Agent 能够完成的等效人类任务时长每7个月翻一番。
Kimi CLI Agent by Kimi
- 【必读】设计良好，代码非常优雅的 CLI Agent 开源项目。
DeepAgents by Langchain
- 【必读】LangChain 的自主 Agent 实现，借鉴了 LangGraph 的成功经验，提出的 Middleware 机制对上下文工程来说是非常不错的抽象。更新很快，Skills等均已经得到支持。还提供一个不错的 UI 界面。
Agents 2.0: From Shallow Loops to Deep Agents by Philschmid
- 【可选】提出了 Agent 2.0 的概念，算是个总结。
Learning the Bitter Lesson by Lance Martin
- 【可选】把 Bitter Lesson 和目前的 Agent 结合，也是我最近引用的一种思想。
rLLM SDK: Training Any Agentic Program without Code Changes by rLLM
- 【可选】有很多 Agent RL Training 的库，尝试了一圈，还是 rLLM 更可靠，更新更快。ART、agent-lightning 等项目都有各自的问题。
The Hitchhikers Guide to LLM Agent by Saurabhalone
- 【必读】作者从头搭建了一个 Coding Agent，这是他的经验，最近比较好的文章之一。
Skills vs Dynamic MCP Loadouts by Armin Ronachers
- 【可选】很简单的一件事，使用 Skills 替代 MCP， 这也是我的实践。
Beyond Pipelines: A Survey of the Paradigm Shift toward Model-Native Agentic AI
- 【可选】一篇综述文章，介绍从Pipeline（Workflow）到自主 Agent 的范式转移。

原文发布于 GitHub Issue #150
创建于 2026-01-04T08:04:33Z，更新于 2026-02-17T17:53:55Z

Tinker RL 测试（含代码库）

2025-12-25T00:00:00+00:00

Tinker 全量放开后，做了个简单的 RL 测试。

Countdown-4 任务，也就是给四个数字比如 [90, 48, 12, 12]，让模型得出目标数 88 的表达式[90 - (48 / (12 + 12)) = 88]，类似于小时候玩的24点。
基础模型选用 Qwen3-4B，未训练的正确率是42%（限制3K tokens 输出）
使用默认的 RL 算法，200 steps，每个step(batch) 64 group，每个group 4 rollout。

总共花费 $45（tinker 赠金 $150），这个任务在4090 本地这个数据量得跑好几天，用tinker的话4个小时左右。

效果很明显，超过 Qwen3-235B。

代码库：https://github.com/ninehills/tinker-countdown

原文发布于 GitHub Issue #148
创建于 2025-12-25T02:49:42Z，更新于 2025-12-25T02:49:42Z

LLM 量化（GPTQ、GGUF）实战以及效果和推理性能实测

2025-09-22T00:00:00+00:00

涉及到的代码在： https://github.com/ninehills/llm-speedup

1. 安装环境

硬件环境：

GTX 4090 24GB x 1
Windows 11 + WSL2
Driver Version: 581.29

安装软件环境（依赖conda: https://conda-forge.org/download/）

# 国内配置：export HF_ENDPOINT=https://hf-mirror.com
conda create -n llm-speedup python==3.12
conda activate llm-speedup

pip install "vllm==0.10.2" "sglang==0.5.2" "evalscope[perf]==1.0.1" langdetect immutabledict
cd llm-compressor
pip install -e ./

pip install "datasets<4.0.0" # fix evalscope datasets failed

2. 量化

2.1 使用 llm-compressor GPTQ 量化

我们以 GPTQ w4a16g128 量化 Qwen/Qwen3-4B-Instruct-2507 模型为例，其他量化方法（AWQ等）请参考 llm-compressor 文档。

# 生成校准数据集，使用中英文高质量 SFT 数据
python calib_data.py
# 进行 GPTQ 量化
python qwen3_dense_instruct_w4a16.py
# 逐层量化，大约需要 10 - 20 分钟

校准数据集使用中英文混合的高质量对话 SFT 数据1024条。
从各种评测和经验看，推荐使用 GPTQ w8a16/w4a16 量化，效果损失最小。
注意 MoE 模型量化时，需要额外忽略 Gate 层，避免量化误差过大。
如果量化损失过大，可以控制忽略掉前 N 层。

2.2 GPTQ 量化前后效果分析

# 启动bf16推理服务
vllm serve Qwen/Qwen3-4B-Instruct-2507 --max-model-len 8192 --served-model-name Qwen3-4B-Instruct-2507 --port 8080
# 评测 Math500（数学）、IFEval（指令遵循）、IQuiz（中文理解）
evalscope eval \
 --model Qwen3-4B-Instruct-2507 \
 --api-url http://127.0.0.1:8080/v1 \
 --api-key EMPTY \
 --eval-type openai_api \
 --datasets math_500 ifeval iquiz \
 --eval-batch-size 100
+------------------------+-----------+--------------------------+----------+-------+---------+---------+
| Model                  | Dataset   | Metric                   | Subset   |   Num |   Score | Cat.0   |
+========================+===========+==========================+==========+=======+=========+=========+
| Qwen3-4B-Instruct-2507 | ifeval    | mean_prompt_level_strict | default  |   541 |  0.8299 | default |
| Qwen3-4B-Instruct-2507 | ifeval    | mean_inst_level_strict   | default  |   541 |  0.8882 | default |
| Qwen3-4B-Instruct-2507 | iquiz     | mean_acc                 | OVERALL  |   120 |  0.525  | -       |
| Qwen3-4B-Instruct-2507 | math_500  | mean_acc                 | OVERALL  |   500 |  0.776  | -       |
+------------------------+-----------+--------------------------+----------+-------+---------+---------+ 

# 启动w4a16推理服务
vllm serve Qwen3-4B-Instruct-2507-W4A16-G128 --max-model-len 8192 --served-model-name Qwen3-4B-Instruct-2507-W4A16-G128 --port 8080
# 评测
evalscope eval \
 --model Qwen3-4B-Instruct-2507-W4A16-G128 \
 --api-url http://127.0.0.1:8080/v1 \
 --api-key EMPTY \
 --eval-type openai_api \
 --datasets math_500 ifeval iquiz \
 --eval-batch-size 100
+-----------------------------------+-----------+--------------------------+----------+-------+---------+---------+
| Model                             | Dataset   | Metric                   | Subset   |   Num |   Score | Cat.0   |
+===================================+===========+==========================+==========+=======+=========+=========+
| Qwen3-4B-Instruct-2507-W4A16-G128 | ifeval    | mean_prompt_level_strict | default  |   541 |  0.8355 | default |
| Qwen3-4B-Instruct-2507-W4A16-G128 | ifeval    | mean_inst_level_strict   | default  |   541 |  0.8879 | default |
| Qwen3-4B-Instruct-2507-W4A16-G128 | iquiz     | mean_acc                 | OVERALL  |   120 |  0.5333 | -       |
| Qwen3-4B-Instruct-2507-W4A16-G128 | math_500  | mean_acc                 | OVERALL  |   500 |  0.782  | -       |
+-----------------------------------+-----------+--------------------------+----------+-------+---------+---------+ 

发现：量化后指标反而全面高于未量化模型，这是因为我们的校准数据集为高质量 SFT 数据，属于正常现象。

2.3 GPTQ 量化前后 vLLM 推理性能分析

vllm serve Qwen/Qwen3-4B-Instruct-2507 --max-model-len 8192 --served-model-name Qwen3-4B-Instruct-2507 --port 8080
evalscope perf \
  --parallel 1 10 20 50 100 \
  --number 10 30 50 100 200 \
  --model Qwen3-4B-Instruct-2507 \
  --url http://127.0.0.1:8080/v1/chat/completions \
  --api openai \
  --dataset random \
  --max-tokens 1024 \
  --min-tokens 1024 \
  --prefix-length 0 \
  --min-prompt-length 1024 \
  --max-prompt-length 1024 \
  --tokenizer-path Qwen3-4B-Instruct-2507 \
  --extra-args '{"ignore_eos": true}'

┏━━━━━━┳━━━━━━┳━━━━━━━━━━┳━━━━━━━━━━┳━━━━━━━━━┳━━━━━━━━━━┳━━━━━━━━━┳━━━━━━━━━━┳━━━━━━━━━┳━━━━━━━━━━┓
┃      ┃      ┃      Avg ┃      P99 ┃    Gen. ┃      Avg ┃     P99 ┃      Avg ┃     P99 ┃   Success┃
┃Conc. ┃  RPS ┃  Lat.(s) ┃  Lat.(s) ┃  toks/s ┃  TTFT(s) ┃ TTFT(s) ┃  TPOT(s) ┃ TPOT(s) ┃      Rate┃
┡━━━━━━╇━━━━━━╇━━━━━━━━━━╇━━━━━━━━━━╇━━━━━━━━━╇━━━━━━━━━━╇━━━━━━━━━╇━━━━━━━━━━╇━━━━━━━━━╇━━━━━━━━━━┩
│    1 │ 0.09 │   11.530 │   11.588 │   88.81 │    0.050 │   0.065 │    0.011 │   0.011 │    100.0%│
│   10 │ 0.65 │   15.284 │   15.711 │  669.34 │    0.288 │   0.628 │    0.015 │   0.015 │    100.0%│
│   20 │ 0.93 │   18.492 │   20.202 │  954.49 │    0.467 │   1.304 │    0.018 │   0.019 │    100.0%│
│   50 │ 1.52 │   30.359 │   38.295 │ 1555.54 │    1.214 │   3.216 │    0.029 │   0.034 │    100.0%│
│  100 │ 1.54 │   54.048 │   75.195 │ 1579.02 │   13.821 │  39.359 │    0.039 │   0.066 │    100.0%│
└──────┴──────┴──────────┴──────────┴─────────┴──────────┴─────────┴──────────┴─────────┴──────────┘

vllm serve Qwen3-4B-Instruct-2507-W4A16-G128 --max-model-len 8192 --served-model-name Qwen3-4B-Instruct-2507-W4A16-G128 --port 8080
evalscope perf \
  --parallel 1 10 20 50 100 \
  --number 10 30 50 100 200 \
  --model Qwen3-4B-Instruct-2507-W4A16-G128 \
  --url http://127.0.0.1:8080/v1/chat/completions \
  --api openai \
  --dataset random \
  --max-tokens 1024 \
  --min-tokens 1024 \
  --prefix-length 0 \
  --min-prompt-length 1024 \
  --max-prompt-length 1024 \
  --tokenizer-path Qwen3-4B-Instruct-2507-W4A16-G128 \
  --extra-args '{"ignore_eos": true}'
┏━━━━━━┳━━━━━━┳━━━━━━━━━━┳━━━━━━━━━━┳━━━━━━━━━┳━━━━━━━━━━┳━━━━━━━━━┳━━━━━━━━━━┳━━━━━━━━━┳━━━━━━━━━━┓
┃      ┃      ┃      Avg ┃      P99 ┃    Gen. ┃      Avg ┃     P99 ┃      Avg ┃     P99 ┃   Success┃
┃Conc. ┃  RPS ┃  Lat.(s) ┃  Lat.(s) ┃  toks/s ┃  TTFT(s) ┃ TTFT(s) ┃  TPOT(s) ┃ TPOT(s) ┃      Rate┃
┡━━━━━━╇━━━━━━╇━━━━━━━━━━╇━━━━━━━━━━╇━━━━━━━━━╇━━━━━━━━━━╇━━━━━━━━━╇━━━━━━━━━━╇━━━━━━━━━╇━━━━━━━━━━┩
│    1 │ 0.16 │    6.150 │    9.323 │  166.50 │    0.059 │   0.068 │    0.006 │   0.009 │    100.0%│
│   10 │ 1.03 │    9.666 │   10.177 │ 1058.72 │    0.386 │   0.807 │    0.009 │   0.009 │    100.0%│
│   20 │ 1.29 │   13.762 │   15.793 │ 1316.59 │    0.528 │   1.476 │    0.013 │   0.014 │    100.0%│
│   50 │ 1.77 │   28.100 │   31.295 │ 1816.37 │    1.165 │   3.533 │    0.026 │   0.027 │    100.0%│
│  100 │ 1.76 │   50.314 │   83.056 │ 1805.55 │    7.330 │  28.528 │    0.042 │   0.074 │    100.0%│
└──────┴──────┴──────────┴──────────┴─────────┴──────────┴─────────┴──────────┴─────────┴──────────┘

发现：量化后，单用户 OTPS 提升 100%，但是最大 OTPS 提升较少。

2.4 GGUF imatrix 量化

GGUF 各种量化方法参考：https://huggingface.co/docs/hub/en/gguf

我们使用 imatrix 4bit 量化（类似于 GPTQ的方法）IQ4_XS

git clone https://github.com/ggml-org/llama.cpp.git
# INSTALL CUDA TOOLKIT: https://developer.nvidia.com/cuda-toolkit-archive
# 安装依赖库
sudo apt-get install cmake curl libssl-dev libcurl4-openssl-dev
# 配置cuda 的路径，具体和你的CUDA版本有关
export PATH=/usr/local/cuda-12.6/bin${PATH:+:${PATH}}
export LD_LIBRARY_PATH=/usr/local/cuda-12.6/lib64${LD_LIBRARY_PATH:+:${LD_LIBRARY_PATH}}
# 编辑 llama.cpp GPU 版本
cmake -B build -DGGML_CUDA=ON
cmake --build build --config Release -j16
# 把模型下载到本地
hf download "Qwen/Qwen3-4B-Instruct-2507" --local-dir "Qwen3-4B-Instruct-2507"
# 转换为 fp16 gguf 格式
python llama.cpp/convert_hf_to_gguf.py "Qwen3-4B-Instruct-2507" --outtype f16 --outfile Qwen3-4B-Instruct-2507-f16.gguf
# 生成 imatrix.dat
./llama.cpp/build/bin/llama-imatrix -m Qwen3-4B-Instruct-2507-f16.gguf -f calibration.txt -ngl 99 --output-frequency 10 -o imatrix.dat --parse-special
# 进行带校准量化
./llama.cpp/build/bin/llama-quantize --leave-output-tensor --imatrix imatrix.dat Qwen3-4B-Instruct-2507-f16.gguf Qwen3-4B-Instruct-2507-iq4_xs.gguf IQ4_XS
# 无校准量化
./llama.cpp/build/bin/llama-quantize --leave-output-tensor Qwen3-4B-Instruct-2507-f16.gguf Qwen3-4B-Instruct-2507-q4_k_m.gguf Q4_K_M

GGUF 量化效果评测

评测模型在 wiki.test 数据集上的 PPL（困惑度），越低越好。

# ppl
./llama.cpp/scripts/get-wikitext-2.sh
./llama.cpp/build/bin/llama-perplexity -m Qwen3-4B-Instruct-2507-f16.gguf -f wikitext-2-raw/wiki.test.raw -ngl 99
PPL = 10.5498 +/- 0.08436
./llama.cpp/build/bin/llama-perplexity -m Qwen3-4B-Instruct-2507-iq4_xs.gguf -f wikitext-2-raw/wiki.test.raw -ngl 99
PPL = 10.7011 +/- 0.08542
./llama.cpp/build/bin/llama-perplexity -m Qwen3-4B-Instruct-2507-q4_k_m.gguf -f wikitext-2-raw/wiki.test.raw -ngl 99
PPL = 10.7434 +/- 0.08562

可以看到 iq4_xs 不仅体积小，效果也较好

评测模型的真实推理效果。

# 见下文，vllm 并发性能要好于 llama.cpp
vllm serve ./Qwen3-4B-Instruct-2507-iq4_xs.gguf --served-model-name Qwen3-4B-Instruct-2507-iq4_xs --max-model-len 8192 --port 8080 --tokenizer Qwen3-4B-Instruct-2507

evalscope eval \
 --model Qwen3-4B-Instruct-2507-iq4_xs \
 --api-url http://127.0.0.1:8080/v1 \
 --api-key EMPTY \
 --eval-type openai_api \
 --datasets math_500 ifeval iquiz \
 --eval-batch-size 100

+-------------------------------+-----------+--------------------------+----------+-------+---------+---------+
| Model                         | Dataset   | Metric                   | Subset   |   Num |   Score | Cat.0   |
+===============================+===========+==========================+==========+=======+=========+=========+
| Qwen3-4B-Instruct-2507-iq4_xs | ifeval    | mean_prompt_level_strict | default  |   541 |  0.8262 | default |
| Qwen3-4B-Instruct-2507-iq4_xs | ifeval    | mean_inst_level_strict   | default  |   541 |  0.8851 | default |
| Qwen3-4B-Instruct-2507-iq4_xs | iquiz     | mean_acc                 | OVERALL  |   120 |  0.5    | -       |
| Qwen3-4B-Instruct-2507-iq4_xs | math_500  | mean_acc                 | OVERALL  |   500 |  0.758  | -       |
+-------------------------------+-----------+--------------------------+----------+-------+---------+---------+

发现：比 GPTQ 量化效果略弱，但整体削弱较小。

GGUF 量化性能评测

vllm + gguf iq4 推理。

vllm serve ./Qwen3-4B-Instruct-2507-iq4_xs.gguf --served-model-name Qwen3-4B-Instruct-2507-iq4_xs --max-model-len 8192 --port 8080 --tokenizer Qwen3-4B-Instruct-2507
evalscope perf \
  --parallel 1 10 20 50 100 \
  --number 10 30 50 100 200 \
  --model Qwen3-4B-Instruct-2507-iq4_xs \
  --url http://127.0.0.1:8080/v1/chat/completions \
  --api openai \
  --dataset random \
  --max-tokens 1024 \
  --min-tokens 1024 \
  --prefix-length 0 \
  --min-prompt-length 1024 \
  --max-prompt-length 1024 \
  --tokenizer-path Qwen3-4B-Instruct-2507/ \
  --extra-args '{"ignore_eos": true}'

┏━━━━━━┳━━━━━━┳━━━━━━━━━━┳━━━━━━━━━━┳━━━━━━━━━┳━━━━━━━━━━┳━━━━━━━━━┳━━━━━━━━━━┳━━━━━━━━━┳━━━━━━━━━━┓
┃      ┃      ┃      Avg ┃      P99 ┃    Gen. ┃      Avg ┃     P99 ┃      Avg ┃     P99 ┃   Success┃
┃Conc. ┃  RPS ┃  Lat.(s) ┃  Lat.(s) ┃  toks/s ┃  TTFT(s) ┃ TTFT(s) ┃  TPOT(s) ┃ TPOT(s) ┃      Rate┃
┡━━━━━━╇━━━━━━╇━━━━━━━━━━╇━━━━━━━━━━╇━━━━━━━━━╇━━━━━━━━━━╇━━━━━━━━━╇━━━━━━━━━━╇━━━━━━━━━╇━━━━━━━━━━┩
│    1 │ 0.17 │    5.884 │    5.945 │  174.02 │    0.044 │   0.087 │    0.006 │   0.006 │    100.0%│
│   10 │ 0.40 │   24.839 │   25.406 │  412.00 │    0.449 │   1.034 │    0.024 │   0.024 │    100.0%│
│   20 │ 0.66 │   25.413 │   26.805 │  677.62 │    0.658 │   1.838 │    0.024 │   0.025 │    100.0%│
│   50 │ 1.17 │   42.447 │   46.481 │ 1201.77 │    1.444 │   4.483 │    0.040 │   0.041 │    100.0%│
│  100 │ 1.20 │   72.823 │  118.206 │ 1225.47 │    8.692 │  37.972 │    0.063 │   0.106 │    100.0%│
└──────┴──────┴──────────┴──────────┴─────────┴──────────┴─────────┴──────────┴─────────┴──────────┘

llama.cpp + gguf iq4 推理。

# set max input tokens = 4096, max output tokens = 4096
./llama.cpp/build/bin/llama-server -m Qwen3-4B-Instruct-2507-iq4_xs.gguf -c 4096 -n 4096 -ngl 99
# test
curl -X POST http://127.0.0.1:8080/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "Qwen3-4B-Instruct-2507-iq4_xs",
    "messages": [
      {"role": "user", "content": "你好"}
    ], "stream": true
  }'
# 注意首次执行一会ctrl+c，进行warmup
evalscope perf \
  --parallel 1 10 20 50 100 \
  --number 10 30 50 100 200 \
  --model Qwen3-4B-Instruct-2507-iq4_xs \
  --url http://127.0.0.1:8080/v1/chat/completions \
  --api openai \
  --dataset random \
  --max-tokens 1024 \
  --min-tokens 1024 \
  --prefix-length 0 \
  --min-prompt-length 1024 \
  --max-prompt-length 1024 \
  --tokenizer-path Qwen3-4B-Instruct-2507 \
  --extra-args '{"ignore_eos": true}'

┏━━━━━━┳━━━━━━┳━━━━━━━━━━┳━━━━━━━━━━┳━━━━━━━━━┳━━━━━━━━━━┳━━━━━━━━━┳━━━━━━━━━━┳━━━━━━━━━┳━━━━━━━━━━┓
┃      ┃      ┃      Avg ┃      P99 ┃    Gen. ┃      Avg ┃     P99 ┃      Avg ┃     P99 ┃   Success┃
┃Conc. ┃  RPS ┃  Lat.(s) ┃  Lat.(s) ┃  toks/s ┃  TTFT(s) ┃ TTFT(s) ┃  TPOT(s) ┃ TPOT(s) ┃      Rate┃
┡━━━━━━╇━━━━━━╇━━━━━━━━━━╇━━━━━━━━━━╇━━━━━━━━━╇━━━━━━━━━━╇━━━━━━━━━╇━━━━━━━━━━╇━━━━━━━━━╇━━━━━━━━━━┩
│    1 │ 0.21 │    4.812 │    4.816 │  212.76 │    0.061 │   0.063 │    0.005 │   0.005 │    100.0%│
│   10 │ 0.20 │   41.531 │   48.982 │  209.89 │   36.711 │  44.152 │    0.005 │   0.005 │    100.0%│
│   20 │ 0.20 │   80.076 │   99.156 │  207.84 │   75.205 │  94.257 │    0.005 │   0.005 │    100.0%│
│   50 │ 0.20 │  189.758 │  251.990 │  204.79 │  184.814 │ 247.020 │    0.005 │   0.005 │    100.0%│
│  100 │ 0.20 │  378.942 │  504.018 │  204.04 │  373.980 │ 499.034 │    0.005 │   0.005 │    100.0%│
└──────┴──────┴──────────┴──────────┴─────────┴──────────┴─────────┴──────────┴─────────┴──────────┘

结论：看 OTPS 指标，llama.cpp 单用户性能最好，但是大并发性能下，vllm+GPTQ > vllm+GGUF。

原文发布于 GitHub Issue #143
创建于 2025-09-22T16:31:39Z，更新于 2025-09-23T09:07:10Z

使用Coding Agent 作为通用智能体完成 DeepResearch 任务

2025-09-16T00:00:00+00:00

CLI Agent 是文本模态 Agent 的天然形态，比如 Manus，其本质就是在 VM 执行的 CLI Agent。在 VLLM 不成熟的今天，我们需要先实现文本模态的 Agent。

尝试用 Gemini CLI 实现 DeepReasearch 任务，复现 Prompt 如下。

效果：使用 gemini-2.5-flash 模型，相比于 Gemini DR，效果要好得多。（但是目前的引用管理不太好）

请严格按照深度研究步骤，产出如对应主题调研报告。需要广泛的搜集信息，包括使用中文和英文关键词搜索，搜索学术论文和新闻报告等。

## 要求

- 所有临时文件，保存本地目录。
- 将所有的研究计划，以 Markdown TODO list 的方式保存在 TODO.md 文件中。

## 研究主题

针对 GraphRAG 主题，找到2025年的全部论文，深入读取论文内容，给出完整综述。

## 深度研究步骤

准备阶段：
（1）创建 TODO.md 文件，保存所有待办步骤到 TODO.md 中，每个任务完成后反思和更新计划。

第一阶段：信息搜集和研究大纲生成
（1）信息搜索：收集相关领域的信息，明确研究背景、细化通过研究想要达成的具体成果
（2）生成研究大纲，写入到 `research_outline.md` 文件

第二阶段：进行深度信息收集
（1）系统手机目标领域的历史数据和案例，将这些信息整理成标准化的内容，可选择用数据表格形态整理。关键是确保数据的完整性、准确性和时序性，为后续所有分析提供可靠的事实基础，数据收集必须覆盖足够的时间范围，包含所有相关的关键信息字段
（2）请广泛的进行信息收集，需要收集 100 条以上的参考文献。
（3）将所有的参考论文、网页等URL保存到 `reference.md` 文件中，使用Markdown表格存储，如果为PDF格式论文，将所有论文下载到本地（可以先生成URL列表后用 wget批量下载）。

第三阶段：深度分析与信息深度挖掘
（1）深度模式分析：基于收集到的数据，深入分析其中的新研究对象、关键模式、规律和趋势等。这包括频率统计、周期性变化、发展趋势等量化分析，目标是揭示隐藏在数据背后的内在逻辑和规律性特征。对于上一步中出现的新的重要概念或实体，需对该类需要探究的内容进行二次信息搜集。分析结果尽可能用统计数据和可视化图表来呈现。
（2）核心驱动因素提取：通过对模式的深度分析，需要识别出真正影响结果的核心驱动因素。这些因素需要按照影响力大小进行排序，并评估各自的权重。重点是找到那些具有决定性作用的关键变量，而不是表面的相关性因素。
（3）现实背景信息补强：针对已识别的核心驱动因素，我会收集当前相关的现实背景信息。这包括最新的政策变化、市场环境、技术发展、社会趋势等可能影响分析结果的现实因素。目标是将历史规律与当前实际情况相结合，确保分析的时效性和准确性。
（4）在这个阶段中，随时判断已有信息是否足够，应尽可能的收集更多的信息，让参考文献越多越好。

第四阶段：输出研究报告
（1）研究报告大纲生成：根据收集的全部信息，生成报告大纲（约10个章节），并写入文件 `research_report_outline.md`
（2）研究报告分章节生成：逐个章节编写报告内容，每个章节内容写到到文件 `research_report_章节.md`
（3）研究报告合并：使用shell命令将所有章节内容合并到文件 `research_final_report.md`。

## 报告格式要求

1. 总文本量不低于 50000 字，使用中文。
2. 使用 Markdown格式。
3. 必须使用 markdown表格、mermaid 图表的方式表达复杂概念和内容。
4. 报告最后是专门的引用章节，有所有引用的参考文献，格式为 `[1] 参考文献1`

原文发布于 GitHub Issue #141
创建于 2025-09-16T09:24:54Z，更新于 2025-09-16T09:26:09Z

不同硬件和推理引擎模型输出的精度差异

2025-09-09T00:00:00+00:00

不同硬件（如NVIDIA GPU, 华为Ascend NPU）和不同推理框架（如PyTorch, vLLM, MindIE）上，对同一模型相同输入进行推理得到不同结果：

浮点数计算的非确定性 现代处理器为追求极致性能，广泛采用并行计算与融合运算（FMA），导致浮点运算顺序不固定 由于浮点数运算不满足严格的结合律 (a+b)+c ≠ a+(b+c)，不同的计算顺序会导致微小的舍入误差累积，最终造成结果差异。
算子实现的差异 不同的硬件平台和推理框架拥有各自高度优化的算子库。
- 硬件层面：NVIDIA GPU依赖cuBLAS/cuDNN，华为Ascend NPU依赖CANN。它们的底层数学实现、优化策略和精度处理存在差异。
- 框架层面：vLLM、MindIE等框架会实现自定义的高性能算子（如PagedAttention），其算法逻辑和数值稳定性可能与PyTorch的原生算子不同，从而引入计算路径上的差异。
  - 即使数学公式相同，不同 kernel 的实现（如矩阵乘的分块大小、是否使用 shared memory、是否融合 layernorm）都会导致数值路径差异。
解码策略的敏感性 即使计算上的差异极其微小，解码过程也会将其放大。
- 采样解码 (temperature > 0)：微小的logits差异会改变整体概率分布，导致采样到完全不同的token，从而放大不确定性。
- 贪心解码 (temperature = 0)：即使使用贪心解码，当两个token的logits值非常接近时，微小的计算误差足以改变它们的排序，使得argmax操作选择不同的token。
  - 示例：logits_A = 10.00, logits_B = 10.01 → softmax 后 P(A)≈49.9%, P(B)≈50.1% → argmax 选 B；若误差使 logits_A=10.012，则 argmax 可能选 A。
- 一旦在某个生成步骤选择了不同的token，它将作为后续步骤的输入，引发“蝴蝶效应”，导致最终生成的序列产生巨大差异。

调试办法：

相同模型在不同环境的表现有极大的差别如何确认？
1. 使用相同的模型权重和模型精度，不使用量化或使用相同的量化权重
2. 使用贪心解码（temperature = 0 ）
3. 使用固定的随机种子
4. 关闭 prefix-cache、NTP 等可能影响推理精度的优化选项
5. 【极大影响性能】禁用并行计算非确定性：PyTorch 中设置 torch.use_deterministic_algorithms(True)。
6. 使用相同的 Prompt，并确保 Chat Template 渲染后的 Tokens 完全匹配
7. 开启输出 logits 分布（https://platform.openai.com/docs/api-reference/chat/create#chat_create-logprobs）
  1. logprobs = true
  2. Whether to return log probabilities of the output tokens or not. If true, returns the log probabilities of each output token returned in the content of message.
8. 检查 Token 输出的 logprobs 的差异
如何进行算子级差异检查？
1. 修改模型前向函数，逐层保存隐藏状态（hidden states）；
2. 在两个平台分别运行，保存每层输出张量；
3. 计算每层输出的相对误差或余弦相似度：
  - L2 相对误差：||A - B||₂ / ||A||₂
  - 余弦相似度：cos_sim = (A·B) / (||A|| * ||B||)
4. 定位误差突增的层（如相似度从 0.9999 骤降至 0.99），然后具体定位问题算子所在。
如何对模型进行 Benchmark 确定统计学意义的差异评估？
1. 使用 evalscope/lm-eval/opencompass 等评测框架在常见的评测数据集上从统计学角度分析精度差异
2. 推荐用 gsm8k、ceval、mmlu_redux、livebench
3. 理论来说，应该进行多轮评测后，从统计学角度判断差异是否显著。
4. 实际来说，相同模型的评测分数分布应该在相对 3% - 5% 以内就可以接受。

解决办法：

使用贪心解码（仅验证问题的时候使用，多数场景不推荐使用贪心解码）
确保使用相同的模型精度（比如 bfloat16和float16 就有较大区别）
更换硬件、推理框架后，重新进行提示词调优。

延伸问题：

量化后的模型一定就比量化前的模型效果差么？
1. 量化也可以视为一种误差，加入误差有时反而会让模型在某些场景下的效果变好。
2. 这是因为量化引入的噪声有时可以视为一种正则化的作用，类似于 Dropout，可以打破模型的一些过拟合特征（一个FP16的权重0.800001和0.800002在量化后可能都变成了同一个INT8值102，对精度的“扰动”打断了模型学到的一些“脆弱”或“过度拟合”的特征。）
大模型是天然这么不稳定的么？
1. 对，大模型本身就是不稳定输出的，而且实践中很少使用贪心解码，也就是 temperature 设置为 > 0，本身有极大的输出随机性。
2. 这也代表着所有的评测结果仅有统计学意义，就和相同的卷子人不会考相同分数一样。
效果不一致是否一定是硬件或算子差异？
1. 不一定，很多时候是推理框架引入的 Bug，需要具体问题具体定位。

原文发布于 GitHub Issue #137
创建于 2025-09-09T02:39:09Z，更新于 2025-09-10T19:57:19Z

免费 GPU 或廉价算力

2025-09-03T00:00:00+00:00

免费 GPU 或廉价算力

1. 显卡需求和推荐模型

使用 int4 + QLora 训练（效果并不会比Full-finetuning差多少，lora rank设置较大且应用到所有层） 8K 上下文时，显存16GB的显卡则可以训练 20B 以下模型，显存24GB的显卡则可以训练 32B（含）以下模型。

推荐微调 1-7B 模型。推荐性价比显卡：4090，计算能力和显存带宽都足够好，比L40等商业卡还好用。

2. 服务商

https://colab.research.google.com/
- 【需翻墙】
- 免费提供 T4 等显卡，显存16GB
https://modelscope.cn/
- 新用户赠送 100h GPU 时间（16G、24G显卡）
https://aistudio.baidu.com/
- 每日签到可以领取免费 GPU 时间，但是限制框架只能使用 Paddle
https://console.ebcloud.com/
- 注册送 50元，4090显卡 2元/小时
https://www.autodl.com/
- 显卡型号众多（适合测试模型在不同显卡上的性能），4090 2-3元/小时
https://www.suanlix.cn/
- 4090 2-3 元/小时
- 有香港节点，下载模型和安装环境比较方便
https://www.runpod.io/
- 国外较大服务商，下载模型和安装环境比较方便
- 4090 折约 4元/小时

3. 其他

建议开通对象存储服务（百度云、阿里云等），将打包好的 Docker 训练镜像、训练结果、数据集、工作目录等持久化到对象存储中。

国内节点配置要点：

pip源：https://mirrors.tuna.tsinghua.edu.cn/help/pypi/
conda源：https://mirrors.tuna.tsinghua.edu.cn/help/anaconda/
Huggingface 代理：https://hf-mirror.com/

原文发布于 GitHub Issue #133
创建于 2025-09-03T14:00:33Z，更新于 2025-09-04T10:10:26Z

大语言模型高质量数据集汇总

2025-07-10T00:00:00+00:00

大语言模型高质量数据集汇总（2025.8 更新）

注意：SFT数据集尤其是比较老的数据集质量其实低下，用 DeepSeek 等top模型重新回答下提问效果可能更好。

预训练数据集

高质量数据集（有中文）	大小	特点
[IndustryCorpus2](https://huggingface.co/datasets/BAAI/IndustryCorpus2)	1TB Chinese / 2.2TB English	进行行业分类（31个行业），并对数据质量评级。
[Fineweb-Edu-Chinese-V2.1](https://huggingface.co/datasets/opencsg/Fineweb-Edu-Chinese-V2.1)	=1.5TBtokens	有4.6B Tokens 高质量教育语料
[m-a-p/Matrix](https://huggingface.co/datasets/m-a-p/Matrix)	4.69T tokens	训练 MAP-Neo 模型的预训练数据集
[Ultra-FineWeb](https://huggingface.co/datasets/openbmb/Ultra-FineWeb)	en 1T tokens / zh 120B tokens	最新的，过滤的更好的数据集
[opencsg/chinese-cosmopedia](https://huggingface.co/datasets/opencsg/chinese-cosmopedia)	zh 60B tokens	参考 CosMopedia 创建的中文合成预训练数据集

数据处理工具：

https://github.com/huggingface/datatrove
https://github.com/modelscope/data-juicer
https://github.com/multimodal-art-projection/MAP-NEO/tree/main/Matrix
https://github.com/OpenDCAI/DataFlow

SFT 数据集

| SFT 数据集 | 大小 | 语言 | 特点 | | ———————————————————————————————————————– | —- | ——– | —————————— | | [m-a-p/neo_sft_phase2](https://huggingface.co/datasets/m-a-p/neo_sft_phase2) | 109k | 中英 | MAP-Neo SFT 阶段2 Chat 数据，质量不错。 | | [OpenCoder-LLM/opc-sft-stage1](https://huggingface.co/datasets/OpenCoder-LLM/opc-sft-stage1) | 3.2M | 中英（中文较少） | 从多个数据集中过滤和合成而来，有通用指令，更关注代码类数据。 | | [OpenCoder-LLM/opc-sft-stage2](https://huggingface.co/datasets/OpenCoder-LLM/opc-sft-stage2) | 436k | 英 | 高质量的代码类数据。 | | [BAAI/Infinity-Instruct](https://huggingface.co/datasets/BAAI/Infinity-Instruct) | 7M | 中英（中文较少） | 多个尺寸的指令和对话数据。 | | [hfl/ruozhiba_gpt4](https://huggingface.co/datasets/hfl/ruozhiba_gpt4) | 4.9k | 中 | 著名的弱智吧+GPT4回答，对模型的能力有提升。 | | [Mxode/Chinese-Instruct](https://huggingface.co/datasets/Mxode/Chinese-Instruct) | 485k | 中 | 从多个数据集中筛选的中文指令数据集，价值较高。 | | [SmolLM Instruct Datasets](https://huggingface.co/collections/HuggingFaceTB/instruct-datasets-66c12756198f9d79f2a60550) | - | 英 | 多个开源数据集。其中自我认知部分值得参考。 | | [Magpie-Qwen2-Pro-200K-Chinese](https://huggingface.co/datasets/Magpie-Align/Magpie-Qwen2-Pro-200K-Chinese) | 200k | 中 | 使用 MagPie 从 Qwen2-72B 中提取的指令集。 | | [lenML/longwriter-6k-filtered](https://huggingface.co/datasets/lenML/longwriter-6k-filtered) | 666 | 英 | 长文本输出（写作） | | [THUDM/LongAlign-10k](https://huggingface.co/datasets/THUDM/LongAlign-10k) | 10k | 中英 | 长文本输入 | | [opencsg/smoltalk-chinese](https://huggingface.co/datasets/opencsg/smoltalk-chinese) | 700k | 中 | 参考 SmolTalk 数据集创建的中文数据集 |

Yulan的数据 Recipe 不错，详细说明了其数据来源，可参考。

偏好数据集

偏好数据集	大小	语言	特点
[llamafactory/DPO-En-Zh-20k](https://huggingface.co/datasets/llamafactory/DPO-En-Zh-20k)	20k	中英	多个来源整理，质量较高，中英各10k
[unalignment-toxic-dpo-v0.2-zh_cn](https://huggingface.co/datasets/tastypear/unalignment-toxic-dpo-v0.2-zh_cn)	541	中	去除模型安全逻辑
[ultrafeedback_binarized](https://huggingface.co/datasets/HuggingFaceH4/ultrafeedback_binarized)	187k	英	将 UltraFeedback改成二元偏好的数据集
[opencsg/UltraFeedback-chinese](https://huggingface.co/datasets/opencsg/UltraFeedback-chinese)	58k	中	多个中文资源库中收集了约58k条中文指令，使用DeepSeek V3 评分

推理数据集

推理数据集	类型	大小	语言	特点
[m-a-p/COIG-Writer](https://huggingface.co/datasets/m-a-p/COIG-Writer)	SFT	914	中	高质量中文创作与思考过程蒸馏数据集
[INTELLECT-2-RL-Dataset](https://huggingface.co/datasets/PrimeIntellect/INTELLECT-2-RL-Dataset)	RL	285k	英	RL math/code 数据集带ground_truth
[open-thoughts/OpenThoughts3-1.2M](https://huggingface.co/datasets/open-thoughts/OpenThoughts3-1.2M)	SFT	1M	英	DeepSeek 蒸馏出的大量数据
[Chinese-DeepSeek-R1-Distill-data-110k](https://huggingface.co/datasets/Congliu/Chinese-DeepSeek-R1-Distill-data-110k)	SFT	110k	中	中文的 DeepSeek 蒸馏推理数据集

评测数据集

根据 DeepSeek V3、Qwen3 等最新模型的评测数据集调整而来，选取最新、最流行、最具有代表性的评测数据集。

评测数据集	类型	大小	语言	特点
LiveBench	综合（偏数学和代码）		英	定时更新的综合评测集，质量较高
[AlignBench](https://github.com/THUDM/AlignBench) v1.1	多轮对话	683	中	中文对齐评测集，需要LLM作为裁判
IFEval	指令遵循		英	自动打分
大海捞针	长上下文		英	通过插入针的方法评测长上下文能力
Arena-Hard	多轮对话		英	Arena 中比较难的问题，需要 LLM 作为裁判
BFCL v3	函数调用		英	比较全面的函数调用评测集
MMLU-Redux	综合（世界知识）		英	MMLU的增强版本
GPQA-Diamond	综合（世界知识、复杂推理）		英	GPQA 中比较难的问题（博士级别）
AIME’24	数学推理		英	2024年的AIME数据集
LiveCodeBench v5	代码生成		英	定时更新的代码生成评测集
C-Eval	综合（世界知识）		中	中文场景下的综合评测集，目前模型多过拟合。
CMMLU	综合（世界知识）		中	中文场景下的综合评测集，目前模型多过拟合。
MATH-500	数学推理		英	OpenAI 的MATH数据集
AIME’25	数学推理		英	2025年的AIME数据
RULER	长上下文		英	评测模型上上下文的能力

原文发布于 GitHub Issue #129
创建于 2025-07-10T00:59:54Z，更新于 2025-12-06T17:12:29Z

AI Tech Blog

2025-07-08T00:00:00+00:00

AI Tech Blog

Eugene Yan ：大模型和应用的内容
GPU Mode：GPU、模型推理和训练工程架构和算法 https://youtube.com/@gpumode?si=9BBmi4OwXDLwyWCI
[Simon Willison’s Newsletter Substack](https://simonw.substack.com/)
https://magazine.sebastianraschka.com/ 《Build a Large Language Model (From Scratch)》作者，文章质量满分，基本分为两类：对大语言模型的某个技术方向做综述以及前沿技术解读。
https://twitter.com/karpathy 大名鼎鼎，输出的质量可以说是天花板
Philschmid
https://lilianweng.github.io/
https://hamel.dev/

原文发布于 GitHub Issue #128
创建于 2025-07-08T00:42:09Z，更新于 2026-02-28T06:34:16Z