上周五入职到现在,在这段实习期间主要是熟悉 奇点云DataSimba数据中台。有关数据中台的解释很多,依我目前的理解,我认为数据中台就是介于数据库和数据应用之间的中间过程。

我初步要学习的内容:熟悉DataSimba的操作流程,能够从原始表提取出相关的数据(SQL语句)。但是我目前面临的问题如下:

  1. 不同的数据层的数据存放在那里?
  2. 如何根据表名来识别是那种层次的数据(原始表、明细表、汇总表、事实表等),即看懂DataSimba数据中台表名的命名规则。
  3. DataSimba采用的是Hadoop框架,命令语句是Hive SQL语句,我该如何写HQL语句呢?
  4. 对于一条HQL语句,我提取到的表格数据如何在DataSimba上查看?

基于以上的问题,我最直接的方式就是查看实际项目的日志。所以我选择了阅读《永旺项目》的全部文档信息。在阅读的过程中,我慢慢懂得如何从一个实际的项目需求来逐步构建整个项目数据表格。

永旺自身的数据库信息 –> DataSimba数据仓库原始表 –> 维度表(DIM) –> 明细表(DWD)&汇总表(DWS) –> 数据分析表(ADS)。当数据流到那一层,表名开头便带有该层标识,如,dim_ord_item_df 表示商品定点维度表,其中dim是维度标识,df表示时间特征。所以现在我可以根据表名的关键字来判断此表属于那一层。

关于查询命令,其实只要输入SQL语句即可,通过关联不同的表来提取出自己想要的信息。

总的来讲,今天我根据永旺的日志画出了他们数据处理流程的树状图,让我对DataSimba中的DAG图有了更深刻的理解。而且现在可以根据表名中的关键字来确定此表数据是属于那一层的数据表。也熟悉了SQL语句在DataSimba上的运行和查看运行后的结果。