LLM 应用后端架构篇:如何设计一个生产级 AI 应用
生产级 LLM 应用需要模型调用层、Prompt 管理、会话存储、任务队列、监控、限流和降级机制。
LLM 应用后端架构篇:如何设计一个生产级 AI 应用
一个 Demo 可以直接从前端调用模型,但生产系统不能这样做。生产级 LLM 应用要把模型调用、权限、审计、缓存、队列和监控放在后端统一管理。
Rendering diagram...
模型调用层
模型调用层负责屏蔽不同供应商差异,统一超时、重试、流式输出、结构化解析和错误处理。业务代码不应该到处散落模型 SDK 调用。
interface ModelClient {
generate<T>(request: {
prompt: string;
schema?: unknown;
stream?: boolean;
}): Promise<T>;
}
Prompt 管理
Prompt 要版本化。线上问题经常来自一次看似无害的 Prompt 修改。最好记录 promptVersion、model、参数、输入摘要和输出摘要,方便回放。
异步任务
长任务不要阻塞 HTTP 请求。比如代码仓库分析、长文档总结、多步骤 Agent 执行,都适合进入任务队列,前端通过轮询或 WebSocket 获取进度。
小结
LLM 后端的目标是把不确定能力包进确定架构里。模型负责生成,系统负责权限、状态、稳定性和可观测性。