LLM 成本优化篇:如何降低 Token 和模型调用成本
LLM 成本优化不是单纯换便宜模型,而是从上下文、缓存、路由、批处理和评测一起控制。
LLM 成本优化篇:如何降低 Token 和模型调用成本
LLM 成本主要来自输入 token、输出 token、调用次数和模型单价。Agent 和 RAG 系统还会增加检索、重排、工具调用和多轮推理成本。
Rendering diagram...
Prompt 压缩
系统提示词不要无限增长。稳定规则可以抽象成短句,历史对话可以总结,检索片段要过滤和截断。上下文越长,成本越高,也越容易引入噪声。
缓存
FAQ、文档摘要、Embedding、检索结果、工具只读查询都可以缓存。注意缓存 key 要包含模型、Prompt 版本和关键参数。
const cacheKey = hash({
model: "gpt-4.1-mini",
promptVersion: "support-v3",
userQuestion,
retrievedChunkIds
});
模型路由
不是所有请求都需要最强模型。分类、改写、格式转换可以用小模型,复杂推理和高价值任务再用强模型。路由策略要配合评测,否则容易为了省钱牺牲质量。
小结
成本优化的目标是“用足够好的模型完成足够明确的任务”。先测质量,再做路由和缓存,最后才是压价格。