LLM 应用后端架构篇:如何设计一个生产级 AI 应用

生产级 LLM 应用需要模型调用层、Prompt 管理、会话存储、任务队列、监控、限流和降级机制。

LLM 应用后端架构篇:如何设计一个生产级 AI 应用

一个 Demo 可以直接从前端调用模型,但生产系统不能这样做。生产级 LLM 应用要把模型调用、权限、审计、缓存、队列和监控放在后端统一管理。

Rendering diagram...

模型调用层

模型调用层负责屏蔽不同供应商差异,统一超时、重试、流式输出、结构化解析和错误处理。业务代码不应该到处散落模型 SDK 调用。

interface ModelClient {
  generate<T>(request: {
    prompt: string;
    schema?: unknown;
    stream?: boolean;
  }): Promise<T>;
}

Prompt 管理

Prompt 要版本化。线上问题经常来自一次看似无害的 Prompt 修改。最好记录 promptVersion、model、参数、输入摘要和输出摘要,方便回放。

异步任务

长任务不要阻塞 HTTP 请求。比如代码仓库分析、长文档总结、多步骤 Agent 执行,都适合进入任务队列,前端通过轮询或 WebSocket 获取进度。

小结

LLM 后端的目标是把不确定能力包进确定架构里。模型负责生成,系统负责权限、状态、稳定性和可观测性。

参考链接