ETL是将业务系统的数据经过抽取清洗转换之后加载到数据仓库的过程目的是将企业中的分散零乱标准不统一的数据整合到一起为企业的决策提供分析的依据
ETL是BI项目最重要的一个环节通常情况下ETL会花掉整个项目的/的时间ETL设计的好坏直接关接到BI项目的成败ETL也是一个长期的过程只有不断的发现问题并解决问题才能使ETL运行效率更高为项目后期开发提供准确的数据
ETL的设计分三部分数据抽取数据的清洗转换数据的加载在设计ETL的时候也是从这三部分出发数据的抽取是从各个不同的数据源抽取到ODS中(这个过程也可以做一些数据的清洗和转换)在抽取的过程中需要挑选不同的抽取方法尽可能的提高ETL的运行效率ETL三个部分中花费时间最长的是T(清洗转换)的部分一般情况下这部分工作量是整个ETL的/数据的加载一般在数据清洗完了之后直接写入DW中去
ETL的实现有多种方法常用的有三种第一种是借助ETL工具如Oracle的OWBSQL server 的DTSSQL Server的SSIS服务informatic等实现第二种是SQL方式实现第三种是ETL工具和SQL相结合前两种方法各有优缺点借助工具可以快速的建立起ETL工程屏蔽复杂的编码任务提高速度降低难度但是欠缺灵活性SQL的方法优点是灵活提高ETL运行效率但是编码复杂对技术要求比较高第三种是综合了前面二种的优点极大的提高ETL的开发速度和效率
数据的抽取
数据的抽取需要在调研阶段做大量工作首先要搞清楚以下几个问题数据是从几个业务系统中来?各个业务系统的数据库服务器运行什么DBMS?是否存在手工数据手工数据量有多大?是否存在非结构化的数据?等等类似问题当收集完这些信息之后才可以进行数据抽取的设计
[] [] [] []