什么是数据预处理?

数据预处理 是指在主要的处理以前对数据进行的一些处理。数据预处理的主要过程有 数据抽取(Extraction)数据转换(Transformation)数据加载(Loading),也称为 ETL,这个过程是负责将分布的、异构数据源中的数据抽取到临时中间层进行转换、集成等处理,最后加载列数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。

数据预处理的内容

  在构建商务智能系统时,如何正确有效地将分散在各个不同数据源中的信息整合到系统中成为整个系统成败的关键,直接影响到系统的运行效率和最终结果。数据预处理正是解决这一问题的有力方案。数据预处理包含3方面的内容:一是“抽取(Extraction)”,指的是将数据从各种原始的业务系统中读取出来,这是所有工作的前提;二是“转换(Transformation)”,指按照预先设汁好的规则将抽取的数据进行转换,使本来异构的数据格式能统一起来;三是“加载(Loading)”,将转换完的数据按计划导入到数据仓库中。

  数据预处理就是指把数据从数据源依照一定的规则装入到数据仓库的过程,这个过程的实质就是符合特定规则的数据流动过程,从不同异构数据源流向统一的目标数据。数据仓库的构建中,数据预处理是关键的一环,它是整个数据仓序的生命线.一直贯穿于项目始终。如果将数据仓库比喻为高楼,那么数据预处理就是地基,建亿数据仓库的首要问题,要考虑从不同类型的源系统中提取数据以及要将数据存储在一个相当规模的目标数据库中,这个过程就是数据预处理过程。

  (1)数据抽取

  数据拙取 是将数据从各个不同的数据源抽取到ODS(Operational Data Store,操作型数据存储)中,在抽取的过程中需要挑选不同的抽取方法,尽可能地提高数据预处理的远行效率。如果已经并清楚了数据是从几个[业务系统中来,各个业务系统的[数据库服务器远行什么DBMS,是否存在手工数据,手工数据量有多大,是否存在非结构化的数据等相关的信息,就可以根据这些信息开始进行数据抽取部分的设计。

  (2)数据转换

  数据转换 实际就是利用有关技术,如数理统计、数据挖掘或预定义的数据转换规则将源数据转化成满足数据质量要求的数据。数据预处理中,花费时间最长的就是数据的转换部分,一般情况下这部分的上作量要占整个数据预处理的2/3。在大多数情况下,数据转换是将数据汇总,以位它更布意义。在转换结构中,确保能找出一种最好的方法保证数据从传统的数据存储器到数据仓库的同步。

  (3)数据加载

  数据加载 是将转换后的数据加载到数据仓库中。数据加载策略包括加载周期和数据追加策略,数据加载周期要综合考虑经营分析需求和系统训载的代价,对不同业务系统的数据采用不同的加载周期,但必须保持间一时间业务数据的完整件和一致性。

参考资料