上面的解释不够直白,下面用一个例子来解释一下,比如秦国在统一六国以后,发现其他六国都有自已的文字,很多文字之间差距较大,大家互不认识,为方便统治和管理,秦王开始统一文字。把来自其他各国的文字进行了统一,最终形成了全国通用的文字。方便了以后的使用者。
数据仓库也是类似,一个公司的数据可能来自不同的系统,有MySQL、Oracle、SQLserver等,这些数据之间规则不统一,不能直接拿来使用,所以为了方便的使用,就把它们取来放到一个统一规则的地方,然后就可以对这些数据进行使用,比如:数据挖掘、数据分析、制作报表等。而这个地方存放数据的地方就叫数据仓库。
为了方便、稳定、安全的使用数据。数据仓库必须有规则
目前数据仓库的特点如下面向主题
不同于传统数据库对应于某一个或多个项目,数据仓库根据使用者实际需求,将不同数据源的数据在一个较高的抽象层次上做整合,所有数据都围绕某一主题来组织。
比如购物是一个主题,那么购物里面包含用户、订单、支付、物流等数据综合,对这些数据要进行归类并分析,分析这个对象数据的一个完整性、一致性的描述,能完整、统一的划分对象所设计的各项数据。
数据集成
数据仓库中存储的数据是来源于多个数据源的集成,原始数据来自不同的数据源,存储方式各不相同。要整合成为最终的数据集合,需要从数据源经过一系列抽取、清洗、转换的过程。
第一:每一个主题的源数据在原有分散数据库中的有许多重复和不一致,且不同数据库的数据是和不同的应用逻辑捆绑的。
第二:数据仓库中的综合性数据不能从原有的数据库系统直接得到,因此在数据进入数据仓库之前要进过统一和综合。(字段同名异意,异名同义,长度等)
数据不可更新和修改
数据仓库的数据主要是提供决策分析用,设计的数据主要是数据查询,一般情况下不做修改,这些数据反映的是一段较长时间内历史数据的内容,有一块修改了影响的是整个历史数据的过程数据。
数据仓库的查询量往往很大,所以对数据查询提出了更高的要求,要求采用各种复杂的索引技术,并对数据查询的界面友好性和数据凸显性提出更高的要求。
随时间不断变化
数据仓库中的数据不可更新是针对应用来说,从数据的进入到删除的整个生命周期中,数据仓库的数据是永远不变的。
数据仓库的数据是随着时间变化而不断增加新的数据。
数据仓库随着时间变化不断删去久的数据内容,数据仓库的数据也有时限的,数据库的数据时限一般是60 ~ 90天,而数据仓库的数据一般是5年~10年。
数据仓库中包含大量的综合性数据,这些数据很多是跟时间有关的,这些数据特征都包含时间项,以标明数据的历史时期。
数据仓库分层架构ODS层(临时存储层):也叫贴源层,就是将所有涉及业务系统的数据抽取到这一层集中存放,同时也会保留历史数据,这一层基本保留了与源系统一样的结构和数据。一般对这些数据分为全量更新和增量更新,通常在贴源的过程中会做一些简单的清洗。
DW层(数据仓库层):将一些数据关联的日期进行拆分,使得其更具体的分类,一般拆分成年、月、日,而ODS层到DW层的ETL脚本会根据业务需求对数据进行清洗、设计,如果没有业务需求,则根据源系统的数据结构和未来的规划去做处理,对这层的数据要求是一致、准确、尽量建立数据的完整性。
APP层(应用层):它应技术或业务需要而建,直面需求,方便展现,同时提高数据的存储性能。
ETL,是英文Extract-Transform-Load的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。ETL一词较常用在数据仓库,但其对象并不限于数据仓库。
ETL就是数据搬家的过程搬家第一步,大家要将旧住所的东西打包;
第二步,大家叫来搬家公司将打包的东西运输到新住所;
第三步,大家在新住所将打包的东西解开,重新整理,摆放。
ETL的主要作用数据要从一地方到另一个地方,必须要入乡随俗。也就是说,数据到某一层就要按照该层对数据的要求去存放,而ETL就是告诉数据每层的要求是什么。
完整的说就是ETL是构建数据仓库的重要一环,用户从数据源抽取出所需的数据,经过数据清洗,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。数据清洗是指将不符合要求的数据除掉,包括错误数据、不完整数据、重复数据。数据转换要做的工作是把所有数据的模板、标准、计算规则等进行统一,如存储结构、数据编码等。清洗转换好的数据按着标准的ETL架构存储到数据仓库中,以备进行数据分析和决策。
ETL主要有两种任务
一种是数据流任务,相当于将旧住所打包的东西运输到新住所;
一种是清理任务,相当于在新住所重新整理摆放。
ETL的重要性ETL是商业智能(BI)重要的一个环节,也是进行数据分析的基础。数据仓库构建好后,才有可能基于数据仓库来构建分析模型并根据需求展现最终的结果。做好一个BI项目,其中很大一部分工作是ETL,ETL的质量决定了BI是否成功。有的BI工具本身就带着ETL功能,实际上是把前期和后期工作整合到一起了。有的公司也是自己开发的ETL工具。当然专门的ETL工具就有很多,开源有免费的比如:kettle,也有收费如:Informatica完全可以满足BI的需要,因而在工作中除了要考虑工具的性能、效率,还要考虑项目的成本,经济也是必须考虑的因素。
h3c wa2620e 怎么配置,怎么切换前后摄像头,怎么分辨苹果7手机真假