产物

1 个产物

数据处理方案：订单导出 CSV → 可信 GMV 指标

对一份字段混乱的订单导出跑完四步工作流的产出。

1. 现状（字段诊断）

| 列 | 含义猜测 | 类型 | 缺失 | 可疑点 | |---|---|---|---|---| | order_amt | 订单金额 | 文本 | 0.3% | 含「¥」前缀、千分位逗号 | | pay_time | 支付时间 | 文本 | 2% | 混用 +08:00 与无时区 | | status | 订单状态 | 文本 | 0 | 中英混用（已支付/PAID） |

需向上游确认： 退款订单是否仍出现在此表？status 全部取值有哪些？

2. 清洗规则

order_amt：去除 ¥ 与逗号 → 转 decimal；失败行进隔离区
pay_time：统一按 Asia/Shanghai 解析为 UTC 存储
status：映射到标准枚举 {paid, refunded, closed}
退款订单不计入 GMV，但保留行用于对账

3. 指标口径（GMV）

分子： status = paid 的 order_amt 之和
不包含： 退款、未支付、测试订单（buyer_id in 内部白名单）
时间窗： 按 pay_time 落在自然日 00:00–24:00（东八区）
勾稽：GMV = 净支付额 + 已退款额

4. 校验清单

[ ] 总行数 = 上游导出行数 - 隔离区行数
[ ] paid 金额求和与财务对账表误差 < 0.1%
[ ] 无负数金额、无 1970 年异常日期
[ ] 与上月 GMV 环比在 ±30% 合理区间，超出则人工复核

不通过时： 金额对不上先查第 1 步隔离区；日期异常先查第 2 步时区。

19144

工作流

只读 · 数据自左向右流动

README

README.md

数据处理流水线规划

四步把杂乱原始数据规划成可信指标：分析字段与脏数据、给可执行清洗规则、定义无歧义指标口径、设计结果校验，避免「跑出来的数没人敢用」。