数据探查

前言

最近参与了公司一个项目，前面我根据MRD将B端标签的PRD写完了。后面便给我安排了《B端标签PRD数据探查》。这是我第一次接触到 数据探查 概念。俗话讲，开始工作之前，一定要弄明白工作目标是什么。在做数据探查任务之前，下面总结一下自己在网上学习到有关 数据探查 的知识总结。

实习已经有半个月了，期间一直在学习数据仓库相关的知识。首先我们根据从客户数据库拉取到的数据，来构建客户的数据仓库。在数据仓库分层模型中，ODS层也称为原始层，这里面的数据是拉取到最原始的数据表，没有经过任何的处理。ODS层完成后，便开始了真正意义上的数据开发流程。在进行数据开发之前，最重要的事情是要保证 数据的可靠性，它是决定最后数据正确性非常关键的一步。

经过跟同事沟通之后，我要做的事情就是保证后面根据B端标签来拉取数据时，保证我拉取到的数据是标签定义的数据结果，比如交易总金额这个标签（标签定义是：过去3年客户实际购买商品总金额）。为了保证拉取的结果，就要检查

需要那些表做关联（检查表是否存在）
需要表中那些关键字（检查关键字是否存在）
关键字对应的数据列是否正常（检查数据是否重复、缺失、异常等）
如果上面3步没问题，是否可以拉取数据成功（给出SQL语句）

完成上述过程，一定要写一个总结性文档。这个文档用来解释：

业务需求是什么？
拉取到的数据是什么数据？
拉取到的数据生成逻辑是什么？是否正确（是否满足业务需求）
拉取过程中用到了那些表，那些标签，数据结构、数据质量如何？

总的来讲，数据探查是在拿到业务需求后（根据PRD标签拉取数据），首先从数据整体上确定实现业务需求要用那些数据源，即：数据源 – > 数据表 –> 表中结构 –> 表内数据质量；以及表与表之间的逻辑关系，都要在文档里面阐述清楚。

这样根据数据探查的文档，才能方便后期数据清洗工作。

数据探查

Contents

前言

数据探查

参考资料