上线前自检→灰度策略→监控看板→回滚预案,四步把发布风险降到可控。

23收藏1Fork58复制

工作流

只读 · 数据自左向右流动

产物

1 个产物

发布预案:支付服务 v2.4(新增分期付款)

跑完四步工作流后的可执行发布文档。

1. 上线前自检

  • [x] 新增表 installment_plan 迁移向后兼容(仅加列,可回滚)
  • [x] 特性开关 feature.installment 默认
  • [x] 配置:分期费率从配置中心读取,已在预发校验
  • [ ] 回滚开关已演练(关开关即恢复旧链路)

2. 灰度策略

| 阶段 | 流量 | 人群 | 观察 | 放量判据 | |---|---|---|---|---| | 1 | 1% | 内部员工 | 2h | 无 5xx 上升 | | 2 | 10% | 低风险地区 | 12h | 支付成功率持平 | | 3 | 100% | 全量 | — | 阶段 2 各指标达标 |

暂停信号: 支付成功率下降 >0.5pp,或分期下单 P99 > 800ms。

3. 监控看板

| 指标 | 阈值 | 正常范围 | |---|---|---| | 支付成功率 | 告警 < 98.5% | 99.0–99.4% | | 分期下单 P99 | 告警 > 800ms | 300–500ms | | installment 错误率 | 告警 > 0.3% | < 0.1% |

4. 回滚预案

  • 触发(任一): 支付成功率 < 98% 持续 5min;或核心接口 5xx 突增
  • 步骤: ① 关 feature.installment 开关(秒级生效,优先)② 如仍异常,回滚服务镜像至 v2.3 ③ 新增表只读,无需回退数据
  • 负责人: [@oncall-payments]
  • 恢复确认: 支付成功率回到 99% 且持续 10min

纪律:先回滚,再排查,不在生产现场调试。

README

README.md

发布流程流水线

四步降低上线风险:生成上线前检查清单、设计灰度策略、列出必盯指标与阈值、写明回滚触发条件与步骤。