数据挖掘

数据仓库

Posted by john on June 15, 2018

数据仓库

数据仓库是面向主题的、集成的、稳定的、不同时间的数据集合,用于支持经营管理中的决策制定过程。

从数据库发展到数据仓库的原因:

  • 数据太多,信息贫乏
  • 异构环境数据的转换和共享
  • 利用数据进行事务处理转换为利用数据支持决策

操作型数据(DB数据)与分析型数据(DW数据)之间的差别:

DB数据 DW数据
细节的 综合或提炼的
在存取时准确的 代表过去的数据
可更新的 不更新
操作需求事先可知道 操作需求事先不知道
事务驱动 分析驱动
面向应用 面向分析
一次操作数据量大 一次操作数据量大
支持日常操作 支持决策需求

数据仓库的特点:

  • 数据仓库的面向主题的
  • 数据仓库是集成的
  • 数据仓库是稳定的
  • 数据仓库是随时间增长的
  • 数据仓库中的数据量很大
  • 数据仓库软硬件要求较高

数据集市

数据集市是一种更小、更集中的数据仓库,是为公司提供分析商业数据的一种廉价途径。数据集市不等于数据仓库,多个数据集市简单合并起来并不能成为数据仓库。