数据仓库 - 9dian/Index GitHub Wiki

定义

不同的人对数据仓库有不同的定义。最受欢迎的定义来自Bill Inmon,他提供了以下内容:

数据仓库是面向主题的,集成的,时变的和非易失性的数据收集,以支持管理层的决策过程。

面向主题:数据仓库可用于分析特定主题领域。例如,“销售”可以是特定主题。

集成:数据仓库集成了来自多个数据源的数据。例如,来源A和来源B可能具有不同的识别产品的方式,但是在数据仓库中,只有一种识别产品的方式。

时间变化:历史数据保存在数据仓库中。例如,一个人可以从3个月,6个月,12个月甚至是来自数据仓库的旧数据中检索数据。这与交易系统形成对比,在交易系统中,通常仅保留最新数据。例如,交易系统可以保存客户的最新地址,其中数据仓库可以保存与客户相关联的所有地址。

非易失性:数据一旦进入数据仓库,便不会更改。因此,永远不要更改数据仓库中的历史数据。

Ralph Kimball为数据仓库提供了更简洁的定义:

数据仓库是专门为查询和分析而构造的交易数据的副本。

这是数据仓库的功能视图。 Kimball没有像Inmon那样讨论数据仓库的构建方式,而是专注于数据仓库的功能。