大模型基础：Token、上下文窗口、温度与采样

大模型接收文本，按 Token 处理上下文，并预测下一个最可能出现的 Token。理解 Token、上下文窗口和采样参数，是调试 AI 应用的第一层基础。

上下文窗口、输入 Token、输出 Token 的关系 — 上下文窗口是一块有限空间，系统消息、用户问题、历史记录和检索结果都会占用它。

关键概念

Token：模型处理文本的基本单位，可能是一个字、一个词片段或一个符号。
Context window：模型一次请求能看到的最大上下文范围。
Temperature：控制输出随机性，越高越发散，越低越稳定。
Max tokens：限制模型最多生成多少内容。

开发者视角

上下文窗口不是越塞越好。塞入无关信息会让模型分心，也会提高成本和延迟。AI 应用开发的重点之一，是筛选真正有用的上下文。

常见误区

把低温度当成“绝对正确”。
以为模型看过训练数据就一定能记住细节。
忽略输入和输出 Token 都会计入成本。