摸清现状→定清洗规则→定指标口径→定校验,把杂乱原始数据规划成可信指标。

19收藏1Fork44复制

工作流

只读 · 数据自左向右流动

产物

1 个产物

数据处理方案:订单导出 CSV → 可信 GMV 指标

对一份字段混乱的订单导出跑完四步工作流的产出。

1. 现状(字段诊断)

| 列 | 含义猜测 | 类型 | 缺失 | 可疑点 | |---|---|---|---|---| | order_amt | 订单金额 | 文本 | 0.3% | 含「¥」前缀、千分位逗号 | | pay_time | 支付时间 | 文本 | 2% | 混用 +08:00 与无时区 | | status | 订单状态 | 文本 | 0 | 中英混用(已支付/PAID) |

需向上游确认: 退款订单是否仍出现在此表?status 全部取值有哪些?

2. 清洗规则

  1. order_amt:去除 ¥ 与逗号 → 转 decimal;失败行进隔离区
  2. pay_time:统一按 Asia/Shanghai 解析为 UTC 存储
  3. status:映射到标准枚举 {paid, refunded, closed}
  4. 退款订单不计入 GMV,但保留行用于对账

3. 指标口径(GMV)

  • 分子: status = paidorder_amt 之和
  • 不包含: 退款、未支付、测试订单(buyer_id in 内部白名单
  • 时间窗:pay_time 落在自然日 00:00–24:00(东八区)
  • 勾稽:GMV = 净支付额 + 已退款额

4. 校验清单

  • [ ] 总行数 = 上游导出行数 - 隔离区行数
  • [ ] paid 金额求和与财务对账表误差 < 0.1%
  • [ ] 无负数金额、无 1970 年异常日期
  • [ ] 与上月 GMV 环比在 ±30% 合理区间,超出则人工复核

不通过时: 金额对不上先查第 1 步隔离区;日期异常先查第 2 步时区。

README

README.md

数据处理流水线规划

四步把杂乱原始数据规划成可信指标:分析字段与脏数据、给可执行清洗规则、定义无歧义指标口径、设计结果校验,避免「跑出来的数没人敢用」。