数据处理方案:订单导出 CSV → 可信 GMV 指标
对一份字段混乱的订单导出跑完四步工作流的产出。
1. 现状(字段诊断)
| 列 | 含义猜测 | 类型 | 缺失 | 可疑点 |
|---|---|---|---|---|
| order_amt | 订单金额 | 文本 | 0.3% | 含「¥」前缀、千分位逗号 |
| pay_time | 支付时间 | 文本 | 2% | 混用 +08:00 与无时区 |
| status | 订单状态 | 文本 | 0 | 中英混用(已支付/PAID) |
需向上游确认: 退款订单是否仍出现在此表?status 全部取值有哪些?
2. 清洗规则
order_amt:去除¥与逗号 → 转 decimal;失败行进隔离区pay_time:统一按Asia/Shanghai解析为 UTC 存储status:映射到标准枚举{paid, refunded, closed}- 退款订单不计入 GMV,但保留行用于对账
3. 指标口径(GMV)
- 分子:
status = paid的order_amt之和 - 不包含: 退款、未支付、测试订单(
buyer_id in 内部白名单) - 时间窗: 按
pay_time落在自然日 00:00–24:00(东八区) - 勾稽:
GMV = 净支付额 + 已退款额
4. 校验清单
- [ ] 总行数 = 上游导出行数 - 隔离区行数
- [ ]
paid金额求和与财务对账表误差 < 0.1% - [ ] 无负数金额、无 1970 年异常日期
- [ ] 与上月 GMV 环比在 ±30% 合理区间,超出则人工复核
不通过时: 金额对不上先查第 1 步隔离区;日期异常先查第 2 步时区。