九原山 | 技术笔记与思考。关注大语言模型、AI Agent、推理优化、SRE 等领域。

Pi Agent 个人配置 TOP NEW

2026-05-15 ninehills About 1 min

经过好几周的摸索和各种尝试，pi agent 的配置基本稳定，之前发了一个 list，没有解释不太友好，这次发个全量带注释的。首先 Pi Agent 的优点就是原生 Pi 的功能极其简单，而扩展机制非常完善，所以即使社区没有你需要的扩展，也很容易 Vibe 出一个自用。非常适合需要对 Agent 上下文进行精细控制的人。如果你需要的是开箱即用的产品，推荐还是使用 Claude Code 或者 Codex。扩展选择原则：占用上下文最小化，尽可能的摒弃大量注册 Tools 的行为同类插件选更新活跃、功能齐全的。有些不占用上下文没什么副作用，只是单纯显示优化和扩展功能的，入围标准很低。最终 Tools 占用 7.7k tokens。功能扩展类：增加MC... Read More

OpenClaw 思考 TOP NEW

2026-02-05 ninehills About 1 min

OpenClaw 产品形态：贾维斯（J.A.R.V.I.S.） OpenClaw 和 Claude Code/Cowork 等 Agent 产品的核心区别有四： Manus/Claude Code/Claude Cowork 等通用 Agent 产品 OpenClaw 交互入口以CLI、Web、桌面App 作为入口以IM作为核心入口，主要在手机上使用。交互方式用户->Agent 的单向交互（用户下发任务，Agent 完成任务）双向交互，Agent 可以根据 Cron、Heartbeat ... Read More

自主 Agent / 上下文工程资料索引 TOP NEW

2026-01-04 ninehills About 2 mins

自主 Agent / 上下文工程资料索引和个人的一些点评，基本以工程为主。学术界普遍集中在 Agent RL 上，这里不进行展开。 Building effective agents by Anthropic 【可选】24年12月的文章，比较鲜明的将 Workflow 和 Autonomous Agent 拆分，并着重在未来 Agent 的发展。 How we built our multi-agent research system by Anthropic 【必读】Anthropic 的博客文章，核心解析 Claude Deep Research 的技术框架，介绍了 SubAgent（Agent as Too... Read More

Tinker RL 测试（含代码库） TOP NEW

2025-12-25 ninehills About 1 min

Tinker 全量放开后，做了个简单的 RL 测试。 Countdown-4 任务，也就是给四个数字比如 [90, 48, 12, 12]，让模型得出目标数 88 的表达式[90 - (48 / (12 + 12)) = 88]，类似于小时候玩的24点。基础模型选用 Qwen3-4B，未训练的正确率是42%（限制3K tokens 输出）使用默认的 RL 算法，200 steps，每个step(batch) 64 group，每个group 4 rollout。总共花费 $45（tinker 赠金 $150），这个任务在4090 本地这个数据量得跑好几天，用tinker的话4个小时左右。效果很明显，超过 Qwen3-235B。代码库：https:/... Read More

LLM 量化（GPTQ、GGUF）实战以及效果和推理性能实测 TOP NEW

2025-09-22 ninehills About 11 mins

涉及到的代码在： https://github.com/ninehills/llm-speedup 1. 安装环境硬件环境： GTX 4090 24GB x 1 Windows 11 + WSL2 Driver Version: 581.29 安装软件环境（依赖conda: https://conda-forge.org/download/） # 国内配置：export HF_ENDPOINT=https://hf-mirror.com conda create -n llm-speedup python==3.12 conda activate llm-speedup pip install "vllm==0.10.2" "sglang==0.5.2" ... Read More

使用Coding Agent 作为通用智能体完成 DeepResearch 任务 TOP NEW

2025-09-16 ninehills About 1 min

CLI Agent 是文本模态 Agent 的天然形态，比如 Manus，其本质就是在 VM 执行的 CLI Agent。在 VLLM 不成熟的今天，我们需要先实现文本模态的 Agent。尝试用 Gemini CLI 实现 DeepReasearch 任务，复现 Prompt 如下。效果：使用 gemini-2.5-flash 模型，相比于 Gemini DR，效果要好得多。（但是目前的引用管理不太好）请严格按照深度研究步骤，产出如对应主题调研报告。需要广泛的搜集信息，包括使用中文和英文关键词搜索，搜索学术论文和新闻报告等。 ## 要求 - 所有临时文件，保存本地目录。 - 将所有的研究计划，以 Markdown TODO list 的方式保存在 TODO.md 文... Read More

不同硬件和推理引擎模型输出的精度差异 TOP NEW

2025-09-09 ninehills About 1 min

不同硬件（如NVIDIA GPU, 华为Ascend NPU）和不同推理框架（如PyTorch, vLLM, MindIE）上，对同一模型相同输入进行推理得到不同结果：浮点数计算的非确定性现代处理器为追求极致性能，广泛采用并行计算与融合运算（FMA），导致浮点运算顺序不固定由于浮点数运算不满足严格的结合律 (a+b)+c ≠ a+(b+c)，不同的计算顺序会导致微小的舍入误差累积，最终造成结果差异。算子实现的差异不同的硬件平台和推理框架拥有各自高度优化的算子库。硬件层面：NVIDIA GPU依赖cuBLAS/cuDNN，华为Ascend NPU依赖CANN。它们的底层数学实现、优化策略和精度处理存在差异。框架层... Read More

免费 GPU 或廉价算力 TOP NEW

2025-09-03 ninehills About 1 min

免费 GPU 或廉价算力 1. 显卡需求和推荐模型使用 int4 + QLora 训练（效果并不会比Full-finetuning差多少，lora rank设置较大且应用到所有层） 8K 上下文时，显存16GB的显卡则可以训练 20B 以下模型，显存24GB的显卡则可以训练 32B（含）以下模型。推荐微调 1-7B 模型。推荐性价比显卡：4090，计算能力和显存带宽都足够好，比L40等商业卡还好用。 2. 服务商 https://colab.research.google.com/ 【需翻墙】免费提供 T4 等显卡，显存16GB https://modelscope.cn/ 新用户赠送 1... Read More

大语言模型高质量数据集汇总 TOP NEW

2025-07-10 ninehills About 2 mins

大语言模型高质量数据集汇总（2025.8 更新）注意：SFT数据集尤其是比较老的数据集质量其实低下，用 DeepSeek 等top模型重新回答下提问效果可能更好。预训练数据集高质量数据集（有中文）大小特点 [IndustryCorpus2](https://huggingface.co/datasets/BAAI/IndustryCorpus2) 1TB Chinese / 2.2TB English 进行行业分类（31个行业），并对数据质量评级。 [Fineweb-Edu-Chinese-V2.1](http... Read More

AI Tech Blog TOP NEW

2025-07-08 ninehills About 1 min

AI Tech Blog Eugene Yan ：大模型和应用的内容 GPU Mode：GPU、模型推理和训练工程架构和算法 https://youtube.com/@gpumode?si=9BBmi4OwXDLwyWCI [Simon Willison’s Newsletter Substack](https://simonw.substack.com/) https://magazine.sebastianraschka.com/ 《Build a Large Language Model (From Scratch)》作者，... Read More

DeepSeek R1 阅读清单 TOP NEW

2025-01-29 ninehills About 1 min

DeepSeek R1 相关资料，全部被我个人阅读并精选，不是简单的罗列。更新时间：2025.3.1 文章 Reasoning best practices：【重点】 OpenAI 的思考模型最佳实践，必看。 Greg 的思考模型 Prompt： Understanding Reasoning LLMs：偏学术一些的文章。 A Visual Guide to Reasoning LLMs：【重点】非常棒的介绍，可视化做的很好。 DeepSeek-R1 Dissection: Understanding PPO & GRPO Without Any Prior Reinforcement... Read More

Embedding Model Fine-Tuning 案例 TOP NEW

2024-10-26 ninehills About 4 mins

代码位置： https://github.com/ninehills/embedding_finetuning/blob/main/README.md 1. 准备环境测试环境：WSL2 + CUDA 12.4 conda create -n embedding python=3.10 -y conda activate embedding # install pytorch with cuda 12.4, see https://pytorch.org/get-started/locally/ # because this bug: https://github.com/huggingface/diffusers/issues/9704, we need to install... Read More

中文 Emebedding & Reranker 模型选型 TOP NEW

2023-12-28 ninehills About 1 min

结论选型建议：大部分模型的序列长度是 512 tokens。 8192 可尝试 tao-8k，1024 可尝试 stella。在专业数据领域上，嵌入模型的表现不如 BM25，但是微调可以大大提升效果。有微调需求且对模型训练了解较少的，建议选择 bge 系列（完善的训练脚本、负例挖掘等）。但多数模型都基于BERT，训练脚本也通用，其他模型也可以参考。重排模型选择很少，推荐使用 bge-reranker，也支持微调。reranker 模型因为单次输入较多，只能通过 GPU 部署。 Embedding 模型 PEG 作者：腾讯模型地址： https://huggingface.co/TownsWu/PEG 论文： https://arxiv.org/... Read More

Gemini Pro Vision 作为表格 OCR 解决方案的简单测试 TOP NEW

2023-12-20 ninehills About 3 mins

随着 Google 发布了 Gemini Pro Vision，我在思考能否将其用来解决 RAG 中经典的问题，扫描 PDF 中的表格识别和转换为 Markdown 格式。结论先行使用 Few-shot 可以达到比较完美的识别效果。英文和数据的识别较好。中文 OCR 识别能力较弱，无法使用。 Prompt 我们使用 ai.google.dev，编写 Structured Prompt 如下： Model: Gemini Pro Vision Temperature: 0 Prompt 正文： Please perform OCR on the image and convert it to Markdown table. - Correctly... Read More

大语言模型（LLM）推理性能优化以及推理框架、后端的评测 TOP NEW

2023-12-19 ninehills About 5 mins

原文及评测脚本发布于 repo 理解 LLM 推理过程参考 illustrated-gpt2 这篇文章，自回归的大语言模型的推理分为两个步骤： prefill：预填充，并行处理输入的 tokens。 decoding：解码，逐个生成下一个 token。重复这两个步骤直到生成 EOS token 或达到用户设定的停止条件（stop token 或最大 token 数）。让我们以 Llama2-7B（4096 序列长度，float16精度）为例，计算一下 batch_size = 1的理想推理速度。 prefill：假设 prompt 的长度是 350 token，那么预填充所需要的时间 = number of tokens * ( number ... Read More

Embedding 模型在 RAG 场景下的评估和微调 TOP NEW

2023-11-03 ninehills About 1 min

为检验 Embedding 模型在 RAG 应用中的性能，我们引入 C-MTEB 评测用来评估 Embedding 模型的性能。已有的 Embedding 模型的 C-MTEB 分数在 MTEB Leaderboard 上可以通过选择 Chinese 选项卡查看。而针对有明确数据集的场景，我们也可以复用 C-MTEB 的评估方法，评估 Embedding 模型在特定数据集上的性能，从而为后续微调提供参考。 C-MTEB 评估任务 C-MTEB 有多种任务，其中和 RAG 能力相关是 Reranking 和 Retrieval 任务，其数据集格式如下： Reranking 任务的数据集格式为： { "query": "大学怎么网上选宿舍", "positi... Read More

实现基于 Github Issues 的博客 TOP NEW

2023-06-28 ninehills About 1 min

之前参考了一些基于 GitHub Issues 的博客，基本分为两种：使用 Javascripts 动态生成博客页面。缺点是对 SEO 不友好，而且加载速度较慢。抓取 issue 然后用 hugo 之类的生成静态站点。找到两三个均过于复杂，且长时间不维护已经无法运行。所以自己简单实现了一个，基本流程如下：创建、编辑 Issue。触发 Github Action。拉取代码。使用 gh（Github CLI）获取全部 issue 以及 issue 内容，过滤指定 label，然后生成 Markdown 格式的目录和文章。参考 generate.py。创建 Pull request 到代码库。人工 Merge 后，Github 会... Read More

大语言模型（LLM）学习路径和资料汇总 TOP NEW

2023-06-27 ninehills About 2 mins

更新时间：20241018 0x00 学习路径本文分为三个章节，各章节的学习目标如下。入门篇：了解大语言模型的基础知识和常见术语。学会使用编程语言访问 OpenAI API 等常见大语言模型接口。面向非专业背景的大模型普及知识。应用篇：可以在本地环境搭建开源模型的推理环境。大语言模型应用开发框架（如 LangChain、Dify等）。 Prompt 工程、 RAG、Agent 等大模型应用开发范式。深入篇：大模型技术原理、训练微调、数据工程、推理优化等。大模型应用范式（RAG、Agent等）... Read More

中文模型 C-Eval 评测结果简单小评测 TOP NEW

2023-06-27 ninehills About 1 min

最近 C-Eval 有较多中文开源模型打榜，分数一度超越 GPT-4，今天做一下简单的复盘。首先排名靠前的几位全部是封闭模型，连API也不对外提供，无法进行评测。顺序找下去，发现 ChatGLM2-6B 可以用，来做一次简单的分析。评测大模型的能力，最难的莫过于逻辑能力和数学能力，我们用 ChatGPT 3.5对比，根据 C-Eval 官方榜单的详细评测项目：模型 Probability and Statistics High School Mathematics Logic ChatGPT 33.7 34.3 37.7 ... Read More

大语言模型（LLM）后训练数据准备相关笔记 TOP NEW

2023-06-26 ninehills About 5 mins

本文是对 LLM 进行微调以及二次预训练时，阅读数据训练相关文章的一些学习笔记，包含极少的经验总结。参考资料： Streamlining Data Preparation for Fine tuning of Large Language Models Processing Data for Large Language Models OpenAI Fine-tuning Docs 0x01 数据格式介绍 **1. Question and Answer Dataset** Context Question Answer privacy statement fo... Read More

值得关注的对中文支持较好的开源模型 TOP NEW

2023-06-21 ninehills About 2 mins

Updated 2023.7.13：增加 baichuan-13B-Chat、InternLM 模型 2023.6.25: 增加 ChatGLM2-6B、Vicuna-33B-v1.3 模型 2023.6.24: 增加 MPT-30B/MPT-30B-Chat 模型模型推理建议使用通用的模型推理工具包运行推理，一般都提供较好的UI以及兼容OpenAI 的API。常见的有： https://github.com/lm-sys/FastChat https://github.com/oobabooga/text-generation-webui https://github.com/ggerganov/llama.cp... Read More

大语言模型（LLM）微调技术笔记 TOP NEW

2023-05-12 ninehills About 8 mins

注：本文大段摘抄自 1 图1：大模型进化树2 0x00 大模型微调在预训练后，大模型可以获得解决各种任务的通用能力。然而，越来越多的研究表明，大语言模型的能力可以根据特定目标进一步调整。这就是微调技术，目前主要有两种微调大模型的方法1：指令微调，目标是增强（或解锁）大语言模型的能力。对齐微调，目标是将大语言模型的行为与人类的价值观或偏好对齐。在 OpenAI 发布的 ChatGPT 中，就主要应用了微调技术3，从而获得了惊艳全世界的效果。图2：InstuctGPT 原理 0x10 指令微调 ( Instruction Tuning) 本质上，指令微调是在自然语言格式的实例集合上微调预训练后的大语言模型的方法。这种方法与有监督微调... Read More

小工具 p2pfile 可以快速的用于内网大文件分发 TOP NEW

2022-01-29 ninehills About 2 mins

p2pfile - Simple P2P file distribution CLI https://github.com/ninehills/p2pfile 背景应用场景所有节点网络联通的环境下的文件分布式分发。私有网络环境，和互联网隔离。无文件加密传输需求设计限制 DHT 网络中在这种环境下意义不大，所以不使用 DHT 网络，而是使用自带的集中 Tracker 在第一个测试版本使用纯 DHT 网络，发现其交换效率低于 Tracker. 不需要 Daemon 常驻进程，只需要单个二进制文件。无加密设计只支持单个文件分发，不支持文件夹分发。不支持 IPv6。设计目标提... Read More

《植物大战僵尸》PC/Mac版存档修改 TOP NEW

2020-05-03 ninehills About 1 min

0x00 为啥想玩这个？ LP：我想玩植物大战僵尸。我：iOS上只有一个氪金的2代，我给你买原版的。英文可以接受不？ LP：你小看我了！我：那马上好。 Steam上下单《Plants vs. Zombies: Game of the Year》。 LP：我不想从第一关开始玩，都玩腻了，我要直接玩无尽模式。我：我来研究下。搜了一圈，发现Mac上没有修改器，只好自己去修改存档文件。主要参考：https://plantsvszombies.fandom.com/wiki/User_file_format 0x01 找到存档文件 wiki上说存档文件在./Application Support/PopCap/PlantsVsZombiesMac/user... Read More

Kubernetes 基于 Namespace 的物理队列实现 TOP NEW

2020-04-10 ninehills About 4 mins

Kubernetes 基于 Namespace 的物理队列实现作者：[email protected] 摘要：Kubernetes 实现基于 Namespace 的物理队列，即Namespace下的Pod和Node的强绑定 0x00 背景 Kuberntes 目前在实际业务部署时，有两个流派：一派推崇小集群，一个或数个业务共享小集群，全公司有数百上千个小集群组成；另一派推崇大集群，每个AZ（可用区）一个或数个大集群，各个业务通过Namespace的方式进行隔离。两者各有优劣，但是从资源利用率提升和维护成本的角度，大集群的优势更加突出。但同时大集群也带来相当多的安全、可用性、性能的挑战和维护管理成本。本文属于Kubernetes多租户大集群实践的一部分，... Read More

SRE 技术简报 20200310 TOP NEW

2020-03-20 ninehills About 1 min

SRE 技术简报 20200310 前沿进展 0x00. The Future of Containers - What’s Next? 容器技术的未来是什么？作者认为是 MicroVM 以及 Unikernel。但我认为 Unikernel 模型和传统应用变化太大，应该很难落地，而 MicroVM 是目前非常火的 Serverless Container的基础，前景更加广阔。优秀文章 0x10. The Complete Guide to Kubernetes Logging Kubernetes 日志相关的方法和实践，维护K8s集群的话，值得参考。 0x11. 调度系统设计精要 2w字长文精解调度系统设计。作者是Draveness，他的一系列文章质量都很高。开... Read More

游戏《天命奇御》 TOP NEW

2020-01-14 ninehills About 1 min

《天命奇御》是台湾一家地产商开发的传统武侠游戏，用两周时间花了30个小时通关了主线剧情，从几个方面聊一聊优缺点。支线剧情和相关互动已经不能用十分丰富来形容，有数百个可以互动和出示的物品，数十个内容丰富的支线任务。此外主线和支线任务的质量都很高，而物品、环境、人物上的很多对话等，表明开发商对古代文化是做了很多的研究。战斗系统抛弃了传统的回合制战斗模式，使用了固定战斗场景内的即时战斗。如果支线任务尽可能做的话，等级和属性提高的比较快，难度较低。整体战斗系统的创新有，也有一定的趣味，但是并没有太多研究的空间，最大的乐趣可能是战斗外收集各种武学、心法的收集欲望了。少数的允许后宫结局的武侠游戏，齐人之福可以有4个妹子，其中从刻画上来... Read More

SRE 技术简报 20200114 TOP NEW

2020-01-14 ninehills About 1 min

前沿进展 0x00. Aperture: A Non-Cooperative, Client-Side Load Balancing Algorithm 一种无需各个客户端之间进行协作的客户端负载均衡算法，文章见：Deterministic Aperture: A distributed, load balancing algorithm。优秀文章 0x10. SOSP19’ Ceph 的十年经验总结：文件系统是否适合做分布式文件系统的后端这篇文章是 SOSP 2019 发的文章，介绍了 Ceph 为何在使用了十多年的本地文件系统之后，又开发了基于裸设备的存储后端 BlueStore，并将默认存储后端切到了基于裸设备 BlueStore。 0x11. Cpython I... Read More

SRE 技术简报 20191222 TOP NEW

2019-12-22 ninehills About 1 min

SRE 技术简报 20191222 前沿进展 0x00. Poetry - Python dependency management and packaging made easy. Python 的依赖管理一直被人诟病，Poetry 类似于 PHP 的 composer 或者 Ruby 的 cargo，值得尝试。 0x01. Hubble - Network, Service & Security Observability for Kubernetes 可以理解为是基于 eBPF 和 Ciium 的看板，可以看K8s的服务依赖图以及根据eBPF监控的实时网络性能。优秀文章 0x10. The Art of SLOs Workshop Google 提供的 ... Read More

SRE 技术简报 20191127 TOP NEW

2019-11-27 ninehills About 1 min

原文发布于 GitHub Issue #72 创建于 2019-11-27T06:39:00Z，更新于 2019-11-27T06:39:00Z 前沿进展 KubeCon North America 2019 ( 11.18 - 11.21) KubeCon North America 2019 上周在圣地亚哥举办，目前各个Topic的材料已经基本上传完毕，但是还没有上传视频，感兴趣可以关注下。没有参加过KubeCon的小伙伴可以关注 @drkellyannfitz 的现场记录： KubeCon North America 2019 Day0 KubeCon North America 2019 Da... Read More

SREcon18 Americas 我的推荐清单 TOP NEW

2018-06-02 ninehills About 2 mins

原文发布于 GitHub Issue #63 创建于 2018-06-02T04:54:54Z，更新于 2018-06-06T13:21:11Z SREcon18 Americas 最近放出了视频资料，我整理后，觉得值得看的 Talk 如下：听力不好的同学（比如我），推荐打开 Youtube 自动生成的英文字幕。部分主题没有被列入，选题和推荐指数纯属个人口味偏好，没有任何原因。很多我都还来得及看，只是匆匆扫了几眼，难免有错误和疏漏，欢迎回复指出。 1. [Workshop] Containers from Scratch ⭐️⭐️⭐️⭐️ Workshop 是动手环节，这个主题是让你从头实现容器，对理解容器的原理很有帮助。详细的动手步骤，请参考 ... Read More

#done

[MIT 6.824 分布式系统课程] Lab2 Raft 心得 TOP NEW

2018-02-28 ninehills About 14 mins

原文发布于 GitHub Issue #62 创建于 2018-02-28T09:36:26Z，更新于 2019-02-15T06:44:39Z Raft struct 的成员 1 Raft 节点的角色，可以使用Go常量 const ( Follower = iota // 0 Candidate // 1 Leader // 2 ) 2 使用Buffered Channel进行异步通信，比如等待心跳包结果等情况，我定义了如下Channel chanHeartbeat chan bool // 收到心跳 chanWinVote chan bool // 赢得选举 chanGrantVote chan bool // 获得选举票 ... Read More

#done

解决 Mac Docker.qcow2 文件过大的问题 TOP NEW

2017-07-13 ninehills About 1 min

原文发布于 GitHub Issue #3 创建于 2017-07-13T02:21:52Z，更新于 2017-11-13T09:46:35Z 背景：Docker on Mac 长时间运行后，Docker.qcow2就会变得很大，需要压缩参考：https://github.com/docker/for-mac/issues/371 Author: yankcrime NB: You’ll need to install qemu via Homebrew as this process requires qemu-img to recompress the qcow2 disk image. $ cd ~/Library/Containers/com.doc... Read More

#done