1. 摘要
2026-06-12 14:05 至 14:42,登录接口因数据库慢查询导致部分用户无法登录,影响约 35% 登录请求。
2. 影响
用户表现为登录按钮长时间 loading 或超时。已登录会话不受影响。
3. 时间线
- 14:05 告警触发:登录 P95 超过阈值。
- 14:12 定位到新会话查询慢查询。
- 14:25 回滚发布。
- 14:42 指标恢复正常。
4. 根因
触发原因:新查询在高基数字段上缺少索引。 系统性原因:发布前没有对生产量级数据执行查询计划检查;慢查询告警只覆盖数据库整体,缺少接口维度关联。
5. 改进项
| 动作 | 类型 | owner | 优先级 | |---|---|---|---| | 为会话查询补索引并验证执行计划 | 预防 | [owner] | P0 | | 在 PR 模板加入高频查询 EXPLAIN 检查 | 预防 | [owner] | P1 | | 增加登录接口慢查询面板 | 检测 | [owner] | P1 |
6. 做得好的地方
回滚路径清晰,值班同学在 20 分钟内完成止血。