LLM 应用评测篇:如何判断模型回答是否靠谱

没有评测的 LLM 应用很难持续迭代,Prompt、模型和检索策略的每次修改都可能带来隐性回归。

LLM 应用评测篇:如何判断模型回答是否靠谱

LLM 应用不能只靠肉眼试几个问题。模型、Prompt、检索、工具和上下文都会变化,没有评测集,就不知道一次修改到底变好了还是变坏了。

Rendering diagram...

评测什么

普通问答看准确性、完整性和可读性。结构化输出看 schema 是否合规。RAG 看检索命中、引用是否正确、是否胡编。Agent 看任务完成率、工具调用次数、失败恢复和成本。

{
  "case_id": "rag_001",
  "question": "如何申请数据库只读权限?",
  "expected_sources": ["permission-guide.md"],
  "must_include": ["工单", "审批人", "只读角色"]
}

Golden Dataset

Golden Dataset 是一组稳定样例,包含输入、期望、关键断言和评价标准。它不一定一开始很大,但要覆盖高频问题、危险问题和历史故障。

自动评测与人工评测

自动评测适合格式、关键词、引用、工具调用路径。人工评测适合复杂推理、业务正确性和体验判断。很多团队会用小规模人工标注校准自动评测。

小结

评测不是上线前的装饰,而是 LLM 应用迭代的安全网。没有评测,Prompt 优化很容易变成凭感觉改配置。

参考链接