大型语言模型(LLM,Large Language Model)的核心原理
大型语言模型(LLM,Large Language Model)的核心原理基于深度学习和自然语言处理技术,尤其是 Transformer 架构和自监督学习。以下是其核心原理的分步解析:
1. 基础架构:Transformer
Transformer 是 LLM 的核心架构,由 Vaswani 等人在 2017 年提出,其核心组件包括:
- 自注意力机制(Self-Attention)
通过计算词与词之间的相关性权重,捕捉长距离依赖关系。例如,模型可以自动识别句子中的指代关系(如“它”指代前文的某个名词)。 - 前馈神经网络(Feed-Forward Network)
对每个位置的词进行非线性变换,增强模型表达能力。 - 位置编码(Positional Encoding)
为输入序列添加位置信息,弥补 Transformer 无法直接感知词序的缺陷。 - 残差连接和层归一化
缓解梯度消失问题,加速训练收敛。
2. 预训练(Pre-training)
LLM 的核心能力来源于大规模无监督预训练,目标是学习语言的通用表示。常见方法包括:
- 自回归模型(如 GPT 系列)
通过预测下一个词(Next Token Prediction)进行训练,例如输入“今天天气很好”,模型预测下一个词可能是“,”。 - 自编码模型(如 BERT)
通过掩码语言建模(Masked Language Modeling, MLM),随机遮盖部分词并预测被遮盖的内容,例如输入“今天[MASK]很好”,模型预测“天气”。 - 混合目标(如 T5)
将多种任务统一为文本生成任务,例如翻译、摘要等均转化为“输入→输出”格式。
训练数据:模型在万亿级别的文本(网页、书籍、代码等)上训练,学习语言模式、事实知识和推理能力。
3. 模型规模与扩展法则
LLM 的性能随模型规模(参数、数据量、计算量)显著提升,符合 Scaling Laws:
- 参数量:从数亿(如 GPT-2)到万亿(如 GPT-4、PaLM)不等。
- 数据量:训练语料通常涵盖数十TB的文本。
- 计算资源:需数千 GPU/TPU 进行分布式训练,例如 GPT-3 训练消耗约 3.14×10²³ FLOPs。
涌现能力(Emergent Ability):当模型达到一定规模时,会突然具备小模型没有的能力(如复杂推理、上下文学习)。
4. 微调与对齐(Fine-tuning & Alignment)
预训练后的模型需进一步优化以适应具体任务:
- 监督微调(SFT)
在标注数据上微调,例如让模型学会遵循指令(如 ChatGPT)。 - 人类反馈强化学习(RLHF)
通过人类偏好数据训练奖励模型(Reward Model),再用强化学习(如 PPO)对齐模型输出与人类价值观,减少有害内容。 - 提示工程(Prompt Engineering)
通过设计输入提示(Prompt)引导模型生成期望结果,例如“请用学术风格重写以下文本:…”。
5. 生成与推理
LLM 生成文本的核心机制:
- 解码策略
- 贪婪搜索(Greedy Search):选择概率最高的词,但可能导致重复。
- 束搜索(Beam Search):保留多个候选序列,平衡质量与多样性。
- 采样(Sampling):按概率随机选择,可通过温度参数(Temperature)控制随机性。
- 上下文学习(In-context Learning)
通过少量示例(Few-shot)或任务描述(Zero-shot),无需更新参数即可适应新任务。
6. 关键挑战
- 计算成本:训练和推理需要极高的算力。
- 幻觉(Hallucination):模型可能生成看似合理但不真实的内容。
- 偏见与安全:训练数据中的偏见可能被放大,需通过对齐技术缓解。
- 长文本依赖:处理长文本时可能出现信息遗忘(可通过外推或记忆机制改进)。
7. 典型模型
- GPT 系列(OpenAI):自回归模型,强调生成能力。
- BERT(Google):双向编码器,擅长理解任务。
- T5(Google):统一文本到文本框架。
- PaLM(Google)、LLaMA(Meta):超大规模模型。
总结
LLM 通过 Transformer 架构捕捉语言结构,利用海量数据预训练学习通用表示,再通过微调和对齐技术适应具体任务。其核心优势在于强大的泛化能力和上下文理解,但同时也面临计算成本、安全性和可控性等挑战。未来的方向可能包括更高效的架构、多模态扩展以及增强推理和事实性。