跳转至

大语言模型(Large Language Model)

大语言模型(LLM)是基于 Transformer 架构、在海量文本数据上预训练的超大规模神经网络,具备理解和生成自然语言的强大能力,是当前人工智能最前沿的研究方向之一。


什么是大语言模型?

简单来说,LLM 就是一个超级版的"文字接龙"系统——给它一句话的开头,它能根据学到的知识和语言规律,高质量地续写下去。

一句话理解

LLM = Transformer 架构 + 海量训练数据 + 超大模型参数 + 精巧的训练策略

但 LLM 的能力远不止"接龙"。当模型的参数量和训练数据量突破某个临界点后,会涌现(Emergence)出一系列令人惊叹的能力:

  • 上下文学习(In-Context Learning):不用重新训练模型,只需在提示词中给几个例子,模型就能学会新任务
  • 思维链推理(Chain-of-Thought):模型能一步步推理复杂问题,而非直接给出答案
  • 指令遵循(Instruction Following):经过对齐训练后,模型能精确理解并执行人类的多样化指令

核心概念速览

1. 从文本到数字:分词(Tokenization)

模型无法直接处理文字。分词器(Tokenizer) 负责将文本切分为模型能处理的最小单元(Token),再映射为数字 ID。

"我喜欢人工智能" → ["我", "喜欢", "人工", "智能"] → [2145, 8823, 1056, 3892]

主流方法有 BPE、WordPiece 等,它们通过统计规律自动学习最优的切分方式,平衡了词汇表大小和语义表达能力。

→ 详见 📒 分词与词汇表

2. 模型架构:三大范式

Transformer 是 LLM 的骨架,但不同任务催生了三种主流架构变体:

架构 代表模型 核心思想 典型任务
Encoder-Only BERT、RoBERTa 双向理解上下文 文本分类、命名实体识别
Decoder-Only GPT 系列、LLaMA 从左到右自回归生成 文本生成、对话、代码
Encoder-Decoder T5、BART 编码输入 + 解码输出 翻译、摘要

当前 LLM 的主流趋势是 Decoder-Only 架构——GPT、LLaMA、Qwen、DeepSeek 等均采用此范式。

→ 详见 📒 Transformer | 模型架构演进

3. 训练流程:三阶段范式

现代 LLM 的训练通常遵循三个阶段:

graph LR
    A["🔤 预训练<br>Pre-training"] --> B["🎯 监督微调<br>SFT"]
    B --> C["🤝 人类对齐<br>RLHF / DPO"]
    style A fill:#e3f2fd
    style B fill:#fff3e0
    style C fill:#e8f5e9
  1. 预训练(Pre-training):在数万亿 Token 的文本上学习语言的通用知识和规律
  2. 监督微调(SFT):用高质量的"问-答"数据教模型学会按指令回答问题
  3. 人类对齐(Alignment):通过 RLHF 或 DPO 等技术,让模型的输出符合人类的偏好和价值观

→ 详见 📒 预训练 | 微调与对齐

4. Scaling Laws:大力出奇迹

OpenAI 在 2020 年提出的 缩放定律(Scaling Laws) 揭示了 LLM 的一个核心规律:

\[L(N, D) \propto N^{-\alpha} + D^{-\beta}\]

其中 \(L\) 是模型损失,\(N\) 是参数量,\(D\) 是训练数据量。简单来说:

  • 模型越大(参数越多)→ 性能越好
  • 数据越多 → 性能越好
  • 两者的提升遵循幂律关系,效果可以预测

这条定律驱动了整个行业从几亿参数走向万亿参数的军备竞赛。

5. 使用 LLM 的方式

对于普通用户和开发者来说,使用 LLM 主要有两种路径:

方式 说明 适用场景
提示工程(Prompt Engineering) 精心设计输入提示,引导模型输出高质量答案 快速应用、日常使用
检索增强生成(RAG) 先检索相关知识,再让模型基于知识回答 需要实时/专业知识的场景
微调(Fine-tuning) 在特定领域数据上进一步训练模型 垂直领域深度定制

→ 详见 📒 提示工程 | RAG | 微调与对齐

6. 推理优化:让大模型跑得更快

LLM 的推理成本极高(每次生成都要遍历数十亿参数),因此工程上发展出了大量优化技术:

  • KV Cache:缓存已计算的注意力键值对,避免重复计算
  • 量化(Quantization):将模型权重从 FP16 压缩到 INT8/INT4,减少显存占用
  • 推测解码(Speculative Decoding):用小模型"猜"多个 Token,再让大模型一次性验证

→ 详见 📒 推理优化


学习路线

建议按照以下顺序学习,由底层原理到上层应用层层递进:

第一阶段:理解底层架构

  • 📒 Transformer — 一切 LLM 的基石,理解注意力机制、编码器-解码器结构
  • 📒 分词与词汇表 — 理解文本如何变成模型可处理的数字

第二阶段:掌握训练范式

  • 📒 预训练 — 理解语言建模目标、Scaling Laws、预训练数据处理
  • 📒 模型架构演进 — 从 GPT-1 到 GPT-4、LLaMA、DeepSeek 的技术发展脉络
  • 📒 微调与对齐 — SFT、RLHF、DPO 等让模型"听话"的关键技术

第三阶段:应用与工程实践

  • 📒 提示工程 — 掌握 Few-shot、CoT 等高效使用 LLM 的技巧
  • 📒 RAG — 让 LLM 具备检索外部知识的能力
  • 📒 推理优化 — KV Cache、量化、推测解码等加速部署技术