LLM 成本优化篇:如何降低 Token 和模型调用成本

LLM 成本优化不是单纯换便宜模型,而是从上下文、缓存、路由、批处理和评测一起控制。

LLM 成本优化篇:如何降低 Token 和模型调用成本

LLM 成本主要来自输入 token、输出 token、调用次数和模型单价。Agent 和 RAG 系统还会增加检索、重排、工具调用和多轮推理成本。

Rendering diagram...

Prompt 压缩

系统提示词不要无限增长。稳定规则可以抽象成短句,历史对话可以总结,检索片段要过滤和截断。上下文越长,成本越高,也越容易引入噪声。

缓存

FAQ、文档摘要、Embedding、检索结果、工具只读查询都可以缓存。注意缓存 key 要包含模型、Prompt 版本和关键参数。

const cacheKey = hash({
  model: "gpt-4.1-mini",
  promptVersion: "support-v3",
  userQuestion,
  retrievedChunkIds
});

模型路由

不是所有请求都需要最强模型。分类、改写、格式转换可以用小模型,复杂推理和高价值任务再用强模型。路由策略要配合评测,否则容易为了省钱牺牲质量。

小结

成本优化的目标是“用足够好的模型完成足够明确的任务”。先测质量,再做路由和缓存,最后才是压价格。

参考链接