@devops-raypostmortem-writerTextePublicMis à jour le 13 juin 2026

把事故时间线整理成对事不对人、含 5-Whys 根因与可落地改进项的复盘文档。

20Stars1Fork41Copies

Prompt

Apercu

Artefacts

1 artefacts

1. 摘要

2026-06-12 14:05 至 14:42,登录接口因数据库慢查询导致部分用户无法登录,影响约 35% 登录请求。

2. 影响

用户表现为登录按钮长时间 loading 或超时。已登录会话不受影响。

3. 时间线

  • 14:05 告警触发:登录 P95 超过阈值。
  • 14:12 定位到新会话查询慢查询。
  • 14:25 回滚发布。
  • 14:42 指标恢复正常。

4. 根因

触发原因:新查询在高基数字段上缺少索引。 系统性原因:发布前没有对生产量级数据执行查询计划检查;慢查询告警只覆盖数据库整体,缺少接口维度关联。

5. 改进项

| 动作 | 类型 | owner | 优先级 | |---|---|---|---| | 为会话查询补索引并验证执行计划 | 预防 | [owner] | P0 | | 在 PR 模板加入高频查询 EXPLAIN 检查 | 预防 | [owner] | P1 | | 增加登录接口慢查询面板 | 检测 | [owner] | P1 |

6. 做得好的地方

回滚路径清晰,值班同学在 20 分钟内完成止血。

README

README.md

事故复盘

输入时间线与影响,输出 blameless postmortem:一句话摘要、影响范围与时长、时间线、用 5-Whys 挖到的根因、动词开头带 owner 占位的改进项。对事不对人。