2026-05-172 min read

LLM 成本优化篇：如何降低 Token 和模型调用成本

LLM 成本优化不是单纯换便宜模型，而是从上下文、缓存、路由、批处理和评测一起控制。

LLM 成本优化篇：如何降低 Token 和模型调用成本

LLM 成本主要来自输入 token、输出 token、调用次数和模型单价。Agent 和 RAG 系统还会增加检索、重排、工具调用和多轮推理成本。

Rendering diagram...

Prompt 压缩

系统提示词不要无限增长。稳定规则可以抽象成短句，历史对话可以总结，检索片段要过滤和截断。上下文越长，成本越高，也越容易引入噪声。

缓存

FAQ、文档摘要、Embedding、检索结果、工具只读查询都可以缓存。注意缓存 key 要包含模型、Prompt 版本和关键参数。

const cacheKey = hash({
  model: "gpt-4.1-mini",
  promptVersion: "support-v3",
  userQuestion,
  retrievedChunkIds
});

模型路由

不是所有请求都需要最强模型。分类、改写、格式转换可以用小模型，复杂推理和高价值任务再用强模型。路由策略要配合评测，否则容易为了省钱牺牲质量。

小结

成本优化的目标是“用足够好的模型完成足够明确的任务”。先测质量，再做路由和缓存，最后才是压价格。

参考链接