数据库

位置:IT落伍者 >> 数据库 >> 浏览文章

深入探讨数据仓库建模与ETL的实践技巧[2]


发布日期:2024年03月31日
 
深入探讨数据仓库建模与ETL的实践技巧[2]

(二)确定量度

在确定了主题以后我们将考虑要分析的技术指标诸如年销售额之类它们一般为数值型数据我们或者将该数据汇总或者将该数据取次数独立次数或取最大最小值等这样的数据称为量度

量度是要统计的指标必须事先选择恰当基于不同的量度可以进行复杂关键性能指标(KPI)等的设计和计算

(三)确定事实数据粒度

在确定了量度之后我们要考虑到该量度的汇总情况和不同维度下量度的聚合情况考虑到量度的聚合程度不同我们将采用最小粒度原则即将量度的粒度设置到最小

例如假设目前的数据最小记录到秒即数据库中记录了每一秒的交易额那么如果我们可以确认在将来的分析需求中时间只需要精确到天就可以的话我们就可以在ETL处理过程中按天来汇总数据此时数据仓库中量度的粒度就是;反过来如果我们不能确认将来的分析需求在时间上是否需要精确到秒那么我们就需要遵循最小粒度原则在数据仓库的事实表中保留每一秒的数据以便日后对进行分析

在采用最小粒度原则的同时我们不必担心海量数据所带来的汇总分析效率问题因为在后续建立多维分析模型(CUBE)的时候我们会对数据提前进行汇总从而保障产生分析结果的效率关于建立多维分析模型(CUBE)的相关问题我们将在下期栏目中予以阐述

(四)确定维度

维度是指分析的各个角度例如我们希望按照时间或者按照地区或者按照产品进行分析那么这里的时间地区产品就是相应的维度基于不同的维度我们可以看到各量度的汇总情况也可以基于所有的维度进行交叉分析

[] [] [] [] [] []

               

上一篇:深入探讨数据仓库建模与ETL的实践技巧[3]

下一篇:深入探讨数据仓库建模与ETL的实践技巧[1]