大语言模型（Large Language Model）¶

大语言模型（LLM）是基于 Transformer 架构、在海量文本数据上预训练的超大规模神经网络，具备理解和生成自然语言的强大能力，是当前人工智能最前沿的研究方向之一。

什么是大语言模型？¶

简单来说，LLM 就是一个超级版的"文字接龙"系统——给它一句话的开头，它能根据学到的知识和语言规律，高质量地续写下去。

一句话理解

LLM = Transformer 架构 + 海量训练数据 + 超大模型参数 + 精巧的训练策略

但 LLM 的能力远不止"接龙"。当模型的参数量和训练数据量突破某个临界点后，会涌现（Emergence）出一系列令人惊叹的能力：

上下文学习（In-Context Learning）：不用重新训练模型，只需在提示词中给几个例子，模型就能学会新任务
思维链推理（Chain-of-Thought）：模型能一步步推理复杂问题，而非直接给出答案
指令遵循（Instruction Following）：经过对齐训练后，模型能精确理解并执行人类的多样化指令

核心概念速览¶

1. 从文本到数字：分词（Tokenization）¶

模型无法直接处理文字。分词器（Tokenizer） 负责将文本切分为模型能处理的最小单元（Token），再映射为数字 ID。

"我喜欢人工智能" → ["我", "喜欢", "人工", "智能"] → [2145, 8823, 1056, 3892]

主流方法有 BPE、WordPiece 等，它们通过统计规律自动学习最优的切分方式，平衡了词汇表大小和语义表达能力。

→ 详见 📒 分词与词汇表

2. 模型架构：三大范式¶

Transformer 是 LLM 的骨架，但不同任务催生了三种主流架构变体：

架构	代表模型	核心思想	典型任务
Encoder-Only	BERT、RoBERTa	双向理解上下文	文本分类、命名实体识别
Decoder-Only	GPT 系列、LLaMA	从左到右自回归生成	文本生成、对话、代码
Encoder-Decoder	T5、BART	编码输入 + 解码输出	翻译、摘要

当前 LLM 的主流趋势是 Decoder-Only 架构——GPT、LLaMA、Qwen、DeepSeek 等均采用此范式。

→ 详见 📒 Transformer | 模型架构演进

3. 训练流程：三阶段范式¶

现代 LLM 的训练通常遵循三个阶段：

graph LR
    A["🔤 预训练<br>Pre-training"] --> B["🎯 监督微调<br>SFT"]
    B --> C["🤝 人类对齐<br>RLHF / DPO"]
    style A fill:#e3f2fd
    style B fill:#fff3e0
    style C fill:#e8f5e9

预训练（Pre-training）：在数万亿 Token 的文本上学习语言的通用知识和规律
监督微调（SFT）：用高质量的"问-答"数据教模型学会按指令回答问题
人类对齐（Alignment）：通过 RLHF 或 DPO 等技术，让模型的输出符合人类的偏好和价值观

→ 详见 📒 预训练 | 微调与对齐

4. Scaling Laws：大力出奇迹¶

OpenAI 在 2020 年提出的 缩放定律（Scaling Laws） 揭示了 LLM 的一个核心规律：

\[L(N, D) \propto N^{-\alpha} + D^{-\beta}\]

其中 \(L\) 是模型损失，\(N\) 是参数量，\(D\) 是训练数据量。简单来说：

模型越大（参数越多）→ 性能越好
数据越多 → 性能越好
两者的提升遵循幂律关系，效果可以预测

这条定律驱动了整个行业从几亿参数走向万亿参数的军备竞赛。

5. 使用 LLM 的方式¶

对于普通用户和开发者来说，使用 LLM 主要有两种路径：

方式	说明	适用场景
提示工程（Prompt Engineering）	精心设计输入提示，引导模型输出高质量答案	快速应用、日常使用
检索增强生成（RAG）	先检索相关知识，再让模型基于知识回答	需要实时/专业知识的场景
微调（Fine-tuning）	在特定领域数据上进一步训练模型	垂直领域深度定制

→ 详见 📒 提示工程 | RAG | 微调与对齐

6. 推理优化：让大模型跑得更快¶

LLM 的推理成本极高（每次生成都要遍历数十亿参数），因此工程上发展出了大量优化技术：

KV Cache：缓存已计算的注意力键值对，避免重复计算
量化（Quantization）：将模型权重从 FP16 压缩到 INT8/INT4，减少显存占用
推测解码（Speculative Decoding）：用小模型"猜"多个 Token，再让大模型一次性验证

→ 详见 📒 推理优化

学习路线¶

建议按照以下顺序学习，由底层原理到上层应用层层递进：

第一阶段：理解底层架构¶

📒 Transformer — 一切 LLM 的基石，理解注意力机制、编码器-解码器结构
📒 分词与词汇表 — 理解文本如何变成模型可处理的数字

第二阶段：掌握训练范式¶

📒 预训练 — 理解语言建模目标、Scaling Laws、预训练数据处理
📒 模型架构演进 — 从 GPT-1 到 GPT-4、LLaMA、DeepSeek 的技术发展脉络
📒 微调与对齐 — SFT、RLHF、DPO 等让模型"听话"的关键技术

第三阶段：应用与工程实践¶

📒 提示工程 — 掌握 Few-shot、CoT 等高效使用 LLM 的技巧
📒 RAG — 让 LLM 具备检索外部知识的能力
📒 推理优化 — KV Cache、量化、推测解码等加速部署技术