LLM 基础篇：大语言模型到底是什么

大语言模型可以理解为一种面向文本和代码的通用推理接口。它接收输入上下文，预测接下来最合适的输出，并在这个过程中表现出总结、改写、问答、代码生成、规划和工具选择等能力。

它和传统系统最大的区别是：传统系统依赖明确规则，LLM 依赖模型参数和上下文。你不再只是在写 if else，而是在设计上下文、约束和反馈循环。

Rendering diagram...

核心概念

Token 是模型处理文本的基本单位，中文、英文、符号和代码都会被切成 token。上下文窗口决定了一次请求里能放多少历史、文档和工具结果。

Embedding 是把文本变成向量，常用于相似度检索。推理是模型根据输入生成输出的过程，温度、最大输出长度、结构化约束都会影响结果稳定性。

用户问题 -> Token 化 -> 模型推理 -> 输出 Token -> 文本结果

预训练让模型学习大量语言和知识模式。微调用更小、更聚焦的数据让模型适应某类任务。对齐则让模型更符合人类偏好、安全边界和指令要求。

应用开发里，大多数场景先不要急着微调。先用 Prompt、RAG、工具调用和评测把系统闭环跑通，只有当风格、领域术语或固定任务长期不稳定时，再考虑微调。

工程上要把模型当成一个强大但不完全确定的服务。它需要输入管理、输出校验、超时重试、日志追踪、成本控制和人工兜底。

type LlmResponse<T> = {
  requestId: string;
  model: string;
  output: T;
  usage: {
    inputTokens: number;
    outputTokens: number;
  };
};

理解 LLM，先抓住三个关键词：上下文、生成、约束。模型本身提供能力，应用架构负责把能力变成可靠产品。