blog

大语言模型（LLM）学习路径和资料汇总

Author: ninehills
Labels: blog
Created: 2023-06-27T13:42:33Z
Link and comments: https://github.com/ninehills/blog/issues/97

更新时间：20241018

本文分为三个章节，各章节的学习目标如下。

入门篇：
- 了解大语言模型的基础知识和常见术语。
- 学会使用编程语言访问 OpenAI API 等常见大语言模型接口。
- 面向非专业背景的大模型普及知识。
应用篇：
- 可以在本地环境搭建开源模型的推理环境。
- 大语言模型应用开发框架（如 LangChain、Dify等）。
- Prompt 工程、 RAG、Agent 等大模型应用开发范式。
深入篇：
- 大模型技术原理、训练微调、数据工程、推理优化等。
- 大模型应用范式（RAG、Agent等）前沿进展。

读者可以根据自己需要选择对应的章节，如对大语言模型的原理不感兴趣，可只关注入门篇和应用篇。考虑到阅读背景，本文尽可能提供中文资料或有中文翻译的资料。

标记为【必看】的是我认为只要你对这个主题感兴趣，必须要看的资料。

在入门之前，请申请 OpenAI API，并具备良好的国际互联网访问条件。
推荐注册 https://openrouter.ai/ 可一站式访问大量闭源和开源模型。

ChatGPT Prompt Engineering for Developers
- 虽然是 Prompt 工程，但是内容比较简单，适合入门者。
- 中英双语字幕： https://github.com/GitHubDaily/ChatGPT-Prompt-Engineering-for-Developers-in-Chinese
OpenAI Quickstart 【必看】
- OpenAI 官方 Quickstart 文档。以及 API Reference
State of GPT：Andrej Karpathy 做的演示，极好的总结了 GPT 的训练和应用。【必看】
- 视频： https://www.youtube.com/watch?v=bZQun8Y4L2A
- PPT： https://karpathy.ai/stateofgpt.pdf
Deep Dive into LLMs like ChatGPT: Andrej Karpathy 最新的长达3小时的入门视频【必看】
- 视频：https://www.youtube.com/watch?v=7xTGNNLPyMI
- 中英双语字幕：https://b23.tv/vF2vS6t

Building Systems with the ChatGPT API
- 中文字幕： https://www.bilibili.com/video/BV1gj411X72B/
Langchain
- Langchain 是大语言模型最火的应用框架。即使不使用，也可以借鉴。
- LangChain for LLM Application Development
  - 中文字幕： https://www.bilibili.com/video/BV1Ku411x78m/
dify：开源的应用编排工具。
GPT best practices：OpenAI 官方出的最佳实践。
openai-cookbook：OpenAI 官方 Cookbook。
Brex’s Prompt Engineering Guide：Prompt 工程简介

大语言模型综述【必看】
- 大语言模型迄今为止最好的学术向中文综述。
大语言模型【必看】
- 大语言模型迄今为止最好的书籍。
大规模语言模型：从理论到实践：另一本不错的中文书籍。
清华大模型公开课第二季：系统的了解大模型的历史、原理和前沿进展。【必看】
GPT，GPT-2，GPT-3 论文精读：GPT 系列模型论文精读
Llama3.1 论文精读：最好的开源大模型论文精读
复杂推理：大语言模型的北极星能力：略学术，解释大语言模型能力的来源。
ICML 2024 Tutorial: Physics of Language Models by Zeyuan Allen-Zhu：使用黑盒研究大模型的原理，非常有参考价值。【必看】

体系化课程：

Post-training 101: 最新的对 Post-training 最直观的介绍【必看】
Build a Large Language Model (From Scratch)：从零构建大模型。【必看】
LLaMA-Factory：个人最推荐的微调大模型的工具。【必看】
MAP-NEO：唯一全过程开源的中文大模型（包括数据处理工具、预训练数据、微调数据等）
The Ultra-Scale Playbook: Training LLMs on GPU Clusters：大规模集群训练大模型的经验，前面部分对模型训练的显存占用、4D并行做了很详细的说明。中文翻译。【必看】