数据集:Olist Brazilian E-Commerce Dataset(Kaggle公开数据集)
来源:Olist是巴西一家真实的电商平台,该数据集包含2016年9月至2018年10月期间的真实交易数据,经脱敏处理后公开发布。
规模:99,441笔订单、112,650条商品明细、103,886笔支付记录,涵盖9张业务表。
货币:所有金额单位为 BRL(巴西雷亚尔,Brazilian Real),1 BRL ≈ 1.3 CNY(2024年参考汇率)。
选择原因:该数据集包含完整的电商交易链路(订单→商品→支付→物流→评价),且存在真实的数据质量问题(缺失值、跨表不一致、异常值)
分析目的:本项目旨在展示数据质量管理的完整方法论——从数据探查、对账计算、异常诊断到改进方案设计
⚠️ 重要说明:
| 表名 | 行数 | 列数 | 重复行 | NULL列数 | 总缺失值 |
|---|---|---|---|---|---|
| orders | 99,441 | 8 | 0 | 4/8 | 3,985 |
| order_items | 112,650 | 7 | 0 | 0/7 | 0 |
| order_payments | 103,886 | 5 | 0 | 0/5 | 0 |
| customers | 99,441 | 5 | 0 | 0/5 | 0 |
| products | 32,951 | 9 | 0 | 8/9 | 2,448 |
| sellers | 3,095 | 4 | 0 | 0/4 | 0 |
| 类别 | 订单数 | 占有效订单% | 差异金额(BRL) | 风险 | 处理 |
|---|---|---|---|---|---|
| ✓ 完全匹配 | 97,622 | 99.41% | 0 | 正常 | 无需处理 |
| △ 有差异 | 578 | 0.59% | -2,922 | 需核查 | 含多付265笔·BRL 3,265、少付39笔·BRL 199、严重差异3笔 |
| 非有效订单异常 | 订单数 | 差异金额(BRL) | 风险 | 处理 |
|---|---|---|---|---|
| ⚠ 有支付无商品 | 1 | 78 | 需核查 | shipped状态,核查商品记录缺失原因 |
| ⚠ 有商品无支付 | 1 | 143 | 财务风险 | 立即核查 |
| - 空数据(无商品无支付) | 774 | 0 | 无数据 | 月度清理 |
| 核销类型 | 订单数 | 占比 |
|---|---|---|
| 单商品单支付 | 85,501 | 87.1% |
| 多商品单支付 | 9,152 | 9.3% |
| 单商品多支付 | 2,702 | 2.8% |
| 多商品多支付 | 267 | 0.3% |
| 舍入差异(<0.01) | 327 | 0.3% |
| 有差异(>0.01) | 247 | 0.3% |
| 类型 | 数量 | 说明 | 处理 |
|---|---|---|---|
| 空数据(无商品无支付) | 774 | 订单存在但无任何业务数据 | 月度批量清理 |
| 有支付无商品 | 1 | shipped状态,BRL 77.73 | 核查商品记录为何缺失 |
| 异常类型 | 数量 | 风险 | 根因 | 结论 |
|---|---|---|---|---|
| 运费 > 售价 | ~4,100 | 正常 | 低单价商品发往偏远州 | 正常物流成本,非数据错误 |
| 运费 > 5倍售价 | ~174 | 需修正 | 疑似数据录入错误 | 逐笔核查修正 |
| 多付(实付>应付) | 265笔·BRL 3,265 | 需核查 | 退款未处理/优惠券重复抵扣 | 大部分小额舍入,大额逐笔退款 |
| 少付(应付>实付) | 39笔·BRL 199 | 需核查 | 平台补贴/数据错误 | 金额小,月度批量处理 |
| 空数据订单(无商品无支付) | 774 | 无数据 | 订单存在但无业务数据 | 月度清理 |
| 有支付无商品 | 1 | 需核查 | shipped状态,BRL 78 | 核查商品记录缺失原因 |
| 支付金额为0 | 9 | 低 | 赠品或测试数据 | 标记后跳过 |
| 优先 | 问题 | 根因 | 处理方案 | 责任人 | 时效 |
|---|---|---|---|---|---|
| P0 | 1单已交付无支付BRL 143 | 漏收款/支付同步失败 | 核查支付日志,确认漏收启动催收 | 财务+IT | 2小时内 |
| P0 | 1单有支付无商品BRL 78 | shipped状态商品记录缺失 | 核查商品记录为何缺失 | 运营+IT | 24小时内 |
| P1 | 265单多付·BRL 3,265 | 退款未处理/数据错误 | 差异>BRL 50逐笔核查 | 财务 | 3天 |
| P1 | DVD/电子运费超标 | 跨州配送多/低单价 | 区域仓+包邮门槛 | 物流+运营 | 30天 |
| P2 | 680单cancelled有支付记录 | 系统未自动清理 | 取消后24h自动清理支付 | 产品+IT | 60天 |
| 类目 | 超标率 | 重量 | 跨州% | 根因 | 建议 |
|---|---|---|---|---|---|
| christmas_supplies | 22.0% | 1.9kg | 69% | 跨州多+卖家集中 | 偏远州专属仓 |
| electronics | 22.0% | 0.8kg | 69% | 跨州多+卖家集中 | 满BRL 30包邮 |
| fashion_underwear | 12.0% | 0.3kg | 58% | 卖家集中 | 与物流商议价 |
| signaling_security | 12.0% | 3.9kg | 54% | 重件 | 优化包装 |
| audio | 10.0% | 1.2kg | 62% | 跨州多+卖家集中 | 区域仓 |
| 指标 | 同州交易 | 跨州交易 | 差距 |
|---|---|---|---|
| 商品数量 | 40,167 (36.1%) | 71,215 (63.9%) | — |
| 平均运费 | BRL 13.45 | BRL 23.66 | +75.9% |
| 运费超售价率 | 1.37% | 4.95% | 3.6倍 |
| 路线(卖家→买家) | 交易量 | 平均运费 | 超标率 |
|---|---|---|---|
| SP 圣保罗 → RO 朗多尼亚 | 195 | BRL 40.55 | 17.4% |
| SP 圣保罗 → MA 马拉尼昂 | 563 | BRL 38.20 | 15.8% |
| PR 巴拉那 → ES 圣灵 | 117 | BRL 32.00 | 15.4% |
| SP 圣保罗 → RN 北里奥格兰德 | 374 | BRL 37.07 | 14.4% |
| SP 圣保罗 → PI 皮奥伊 | 371 | BRL 37.57 | 13.7% |
| SP 圣保罗 → TO 批坎廷斯 | 228 | BRL 37.42 | 13.2% |
| SP 圣保罗 → PB 帕拉伊巴 | 396 | BRL 42.89 | 13.1% |
| 等级 | 评分区间 | 含义 | 行动 |
|---|---|---|---|
| A | 90~100 | 优秀 | 优先推荐 |
| B | 75~90 | 良好 | 维持现状 |
| C | 60~75 | 一般 | 针对性改善 |
| D | < 60 | 需约谈 | 15天未改善限制接单 |
| 指标对 | 相关系数 | 业务含义 |
|---|---|---|
| 发货及时率 ↔ 差评率 | -0.494 | 发货慢确实导致差评,强负相关 |
| 对账准确率 ↔ 平均差异 | -0.345 | 对账准确的卖家平均差异也小 |
| 发货及时率 ↔ 评分 | +0.500 | 发货快的卖家评分更高,中等正相关 |
| 评分 ↔ 差评率 | -0.940 | 几乎完全负相关(结构性关系) |
| 编号 | 规则名称 | 维度 | 检查对象 | 阈值 | 结果 | 优先级 |
|---|---|---|---|---|---|---|
| A1 | 订单关键字段非空 | 完整性 | orders(order_id/customer_id) | NULL > 0% | PASS | P0 |
| A2 | 订单商品记录非空 | 完整性 | orders → order_items | 缺失 > 0.1% | ALERT | P1 |
| A3 | 支付记录完整性 | 完整性 | orders → payments | 缺失 > 0 | FAIL | P0 |
| B1 | 订单ID唯一 | 唯一性 | orders.order_id | 重复 > 0% | PASS | P0 |
| C1 | items→orders引用 | 一致性 | order_items.order_id | 孤儿 > 0 | PASS | P1 |
| C3 | 价格与运费非负 | 一致性 | order_items | price/freight < 0 | PASS | P1 |
| C5 | 运费合理性检查 | 一致性 | order_items | 超标率 > 5% | ALERT 3.7% | P3 |
| D1 | 订单-支付对账 | 准确性 | 每笔订单 | 匹配率 ≥ 98% | PASS 99.41% | P0 |
| D2 | 大额支付审核 | 准确性 | order_payments | > P99.9 | 105笔 | P1 |
| D3 | 日期逻辑验证 | 准确性 | orders时间戳 | 审批 < 购买 | ALERT | P3 |
| # | 行动项 | 具体做什么 | 负责人 | 时间 | 预期效果 |
|---|---|---|---|---|---|
| 1 | 催收1笔漏收款 | 核查支付日志,确认是漏收还是数据问题 | 财务+IT | 立即 | 回收BRL 143 |
| 2 | 退款确认 | unavailable订单逐笔确认退款状态 | 财务 | 24h | 消除客户投诉风险 |
| 3 | 多付退款 | >BRL 50的逐笔核查,| 财务 | 3天 | 释放BRL ~3,000挂账 | |
| 4 | 对账自动化 | Python脚本+cron每日跑,异常自动飞书通知 | 数据 | 7天 | 从手动变自动,节省2h/天 |
| 5 | DVD运费优化 | 与物流商议价+满BRL 50包邮试点 | 运营+物流 | 30天 | 超标率37%→15% |
| 6 | 卖家健康度上线 | 四维度评分+D级卖家自动通知 | 数据+运营 | 30天 | 185个异常卖家针对性改善 |
| 7 | 取消订单清理 | 取消后24h自动触发支付清理/退款 | 产品+IT | 60天 | 消除625笔历史挂账 |
电商平台财务数据质量与对账分析报告 · Olist Brazilian E-Commerce Dataset
分析框架:数据探查 → 对账计算 → 异常诊断 → 业务洞察 → 持续改进 · 数据期间:2016-09~2018-09
本项目基于Kaggle公开数据集(Olist Brazilian E-Commerce)进行分析,改进方案预期目标基于数据测算,非已验证结果。