一句话定义

  • 大模型的最终表现,不是由单一“数据组成”决定的,而是由 训练数据、训练阶段、对齐机制、推理时上下文、外部工具与记忆系统、评估反馈闭环 共同塑造的。

解决的问题

  • 大模型的能力到底是怎么形成的
  • 预训练、后训练、微调分别在解决什么问题
  • 规则、上下文、记忆、RAG、工具调用分别属于哪一层
  • 为什么模型“会说话”不等于“会做事”
  • 为什么真实效果不只取决于模型参数,还取决于运行时系统设计

核心机制

  • 预训练 决定模型的语言基础、知识广度和泛化潜力。
  • 后训练 / 对齐训练 决定模型是否更擅长遵循指令、保持安全边界、完成具体任务。
  • 领域微调 / 继续训练 决定模型在垂直场景中的专业性。
  • 推理时增强(如上下文、RAG、记忆、工具调用、推理预算)决定模型在真实应用中的即时表现。
  • 评估与反馈闭环 决定模型和系统能否持续优化,而不是停留在一次性训练结果。

关键组成

一、训练阶段:模型能力的形成过程

1. 预训练(Pretraining)

  • 定义:模型在海量数据上进行的大规模自监督训练阶段,用于学习语言模式、世界知识、代码结构、多模态映射等基础能力。
  • 目标:建立通用表示能力,让模型具备“看懂上下文、续写内容、抽象归纳、迁移泛化”的底层能力。
  • 常见数据:
    • 网页文本
    • 书籍与百科
    • 代码仓库
    • 数学与推理样本
    • 图像-文本配对数据(多模态模型)
  • 说明:
    • 预训练的主流范式不是“规则预训练”和“行为预训练”两种完全独立的方法,而是 统一的参数学习过程
    • 不同数据类型、任务设计和训练目标,会共同影响模型最终呈现出的知识性、语言性和推理性。
  • 可进一步区分的维度:
    • 自然语言预训练
    • 代码预训练
    • 数学 / 逻辑密集型数据强化
    • 多模态预训练

2. 继续预训练(Continued Pretraining / Domain-Adaptive Pretraining,可选)

  • 定义:在基础预训练模型上,继续使用某一领域的数据进行追加训练。
  • 目标:让模型更熟悉特定领域的术语、文风、知识结构和任务分布。
  • 典型场景:
    • 医疗语料
    • 金融文本
    • 法律文书
    • 企业内代码库
  • 作用:它仍属于“训练模型参数”的阶段,但比基础预训练更聚焦。

3. 后训练(Post-training)

  • 定义:在预训练之后,围绕“更好地听懂指令、按要求回答、遵守约束、学会特定能力”所做的一系列训练。
  • 目标:推动模型从“具有潜在能力”转向“更适合被人类直接使用”。
  • 常见组成:
    • SFT(Supervised Fine-Tuning):用高质量指令-回答样本教模型按期望方式回应
    • 偏好优化(Preference Optimization):例如 RLHF、DPO、RLAIF 等,让模型更接近人类偏好与安全要求
    • 工具使用训练(Tool Use Training):让模型学会调用函数、API、浏览器、代码执行器等
    • 安全对齐(Safety Alignment):让模型在敏感场景中更可控
  • 说明:
    • 后训练不是单一步骤,而是一个可迭代优化的阶段。
    • 在很多语境下,SFT 本身就属于“微调”的一种。

4. 微调(Fine-tuning)

  • 定义:在已有模型基础上,用更小但更高质量、更针对性的样本继续训练模型参数。
  • 目标:让模型适应某个具体任务、风格、领域或组织要求。
  • 常见方式:
    • 全参数微调
    • LoRA / QLoRA 等参数高效微调
    • 特定任务定制微调
  • 注意:
    • 微调通常是“后训练体系的一部分”,不应被绝对地看作后训练之后的独立终点。
    • 对普通用户而言,很多闭源模型并不开放参数级微调,更多时候实际做的是 prompt、RAG、workflow 与 memory 层增强,而不是真正改模型权重。

二、推理与部署阶段:模型在真实系统中的表现决定因素

1. 规则(Rules)

  • 定义:人为施加的行为边界、格式约束、安全要求和权限限制。
  • 可能存在于多个层级:
    • 模型对齐层:训练中形成的安全边界
    • 系统提示层:system prompt / developer instructions
    • 产品平台层:工具权限、审计策略、敏感操作限制
  • 作用:保证可控性、安全性与一致性。

2. 上下文(Context)

  • 定义:模型本次推理时能看到的即时信息集合。
  • 常见组成:
    • 当前用户输入
    • 历史对话内容
    • 系统提示
    • 检索结果
    • 工具返回值
  • 特点:
    • 短期、动态、窗口受限
    • 直接决定本次回答质量
  • 结论:很多时候不是模型本体不够强,而是上下文组织得不够好。

3. 记忆(Memory)

  • 定义:跨会话持续保留并在后续推理时调用的信息。
  • 需要区分两种含义:
    • 参数记忆(Parametric Memory):模型权重中固化的知识
    • 外部记忆(External Memory):系统额外保存的用户偏好、历史摘要、知识条目、画像信息
  • 在实际产品中,所谓“记住用户”更多是 外部记忆注入上下文,而不是模型真的把用户信息永久写进参数里。

4. 检索增强(RAG, Retrieval-Augmented Generation)

  • 定义:模型在回答前,先从外部知识库、文档库、向量库或数据库中检索相关信息,再将结果注入上下文。
  • 作用:
    • 弥补参数知识过时问题
    • 让回答更贴近私有知识或实时知识
    • 降低幻觉风险
  • 结论:模型“本身知道什么”和“运行时能查到什么”是两回事。

5. 工具调用(Tool Use / Function Calling)

  • 定义:模型通过调用外部工具来完成查询、计算、执行、浏览、搜索、写文件等动作。
  • 作用:
    • 把模型从“会回答”提升到“能做事”
    • 让模型具备环境交互能力
  • 常见工具:
    • 搜索引擎
    • 代码执行器
    • 浏览器
    • 数据库
    • API / 函数调用

6. 推理时计算(Inference-time Compute)

  • 定义:模型在单次回答中所获得的推理预算和推理策略。
  • 体现方式:
    • 更长的思考链
    • 更多中间步骤
    • 多次采样 / 自一致性
    • 多轮工具调用
  • 作用:同一个模型,在不同推理预算和策略下,表现可能有明显差异。

三、评估与优化:模型持续变强的闭环

1. 训练集 / 验证集 / 测试集

  • 训练集(Train Set):用于更新参数
  • 验证集(Validation Set):用于训练过程中选择模型、调超参数、监控过拟合
  • 测试集(Test Set):用于最终评估,不参与调参
  • 注意:只讲验证集是不完整的,完整评估至少应区分 train / val / test 三者。

2. 离线评测(Offline Evaluation)

  • 形式:基准测试集、标准 benchmark、自动评估脚本
  • 价值:适合做版本对比和阶段性回归测试
  • 限制:离线好看,不代表线上一定好用

3. 人工评测(Human Evaluation)

  • 内容:
    • 回答是否有帮助
    • 风格是否合适
    • 逻辑是否可靠
    • 安全边界是否合理
  • 价值:很多“主观质量”只能靠人工评估

4. 线上反馈与真实问题日志

  • 来源:
    • 用户问题分布
    • 错误案例
    • 失败调用日志
    • 差评与人工纠正
  • 作用:帮助识别模型或系统在真实环境下的盲区
  • 说明:与其说“问题(Questions)”是模型组成的一部分,不如说它是 生产环境反馈样本

5. 数据回流与再训练

  • 目标:把线上问题转化为新的训练、评估或规则改进依据
  • 常见形式:
    • 构造新 SFT 数据
    • 构造偏好样本
    • 更新 RAG 知识库
    • 更新工具调用策略
    • 更新系统规则或工作流

四、能力扩展方向

1. 感知(Perception)

  • 定义:模型接收并理解图像、音频、视频、传感器数据等外部信号的能力。
  • 本质:这是 多模态输入能力,不是单纯的文本处理。
  • 作用:扩展模型对现实世界的理解深度与交互维度。

2. Agent 能力

  • 定义:模型能够在目标驱动下分解任务、调用工具、读取环境状态、执行动作并根据反馈修正策略的能力。
  • 说明:Agent 不是单独一种“模型数据”,而是 模型 + 工具 + 规则 + 状态 + 工作流编排 的系统产物。

3. 长期个性化能力

  • 来自:
    • 用户偏好记忆
    • 长期知识沉淀
    • 任务历史
    • 稳定工作流
  • 作用:使系统越来越理解特定用户或组织的工作方式。

生命周期 / 执行流程

一个更准确的大模型能力形成路径

  1. 基础预训练:建立通用语言与知识能力
  2. 继续预训练(可选):强化领域知识或专业语料适配
  3. 后训练 / 对齐训练:提升指令跟随、安全性、工具使用与任务表现
  4. 领域微调(可选):进一步适应具体业务或组织需求
  5. 部署与推理时增强:结合规则、上下文、记忆、RAG、工具调用
  6. 评估与反馈闭环:通过离线评测、人工评测、线上反馈持续优化

边界与限制

  • 单靠“更多数据”并不能自动解决所有问题,数据质量、任务设计、对齐方式同样关键。
  • 模型参数能力和系统工程能力要分开看:很多真实应用效果来自系统设计,而不只是模型本身。
  • 记忆、RAG、工具调用并不属于同一种“训练数据”,而是部署后的能力增强机制。
  • 离线 benchmark 成绩不等于真实生产表现。

常见误区

  • 误区 1:把“AI 的数据组成”理解成一个单层概念,混淆训练、运行、评估和产品机制。
  • 误区 2:把“逻辑能力”当成与统计学习完全分离的一条独立训练路线。
  • 误区 3:把“微调”绝对地看成“后训练之后”的下一步,而不是后训练体系的一部分。
  • 误区 4:把“记忆”误以为一定是模型参数内部记住的内容。
  • 误区 5:把用户问题日志直接视为模型能力组成,而忽略它其实是反馈与优化样本。

对比项

  • 预训练 vs 后训练:广泛基础能力 vs 可用性与任务对齐
  • 参数记忆 vs 外部记忆:权重中固化的知识 vs 系统注入的长期信息
  • 微调 vs RAG:改模型参数 vs 不改参数、改运行时信息供给
  • 回答能力 vs Agent 能力:能生成文本 vs 能感知环境、调用工具、完成任务
  • 离线评测 vs 线上表现:实验室分数 vs 实际使用效果