文档介绍:该【第12章数据仓库与数据挖掘 】是由【hhhhh】上传分享,文档一共【30】页,该文档可以免费在线阅读,需要了解更多关于【第12章数据仓库与数据挖掘 】的内容,可以使用淘豆网的站内搜索功能,选择自己适合的文档,以下文字是截取该文章内的部分文字,如需要获得完整电子版,请下载此文档到您的设备,方便您编辑和打印。第12章数据仓库与数据挖掘第一页,共三十页。基本概念数据仓库定义数据仓库是一个面向决策主题的、集成的、时变的、非易失、以读为主的数据集合。数据仓库系统的分类 Web数据仓库;并行数据仓库;多维数据仓库;压缩数据仓库等。OLAP定义OLAP是针对某个特定的主题进行联机数据访问、处理和分析(fēnxī),通过直观的方式从多个维度、多种数据综合程度将系统的运营情况展现给用户。第二页,共三十页。面向决策主题的数据仓库围绕一些主题,排除对于决策无用的数据,提供特定主体的简明视图。集成的构造数据仓库是将多个(duōɡè)异种数据源集成在一起,确保命名约定,编码结构,属性度量等一致性。,隐式或显式地包含时间元素。非易失的数据仓库总是物理地分离存放数据;由于这种分离,数据仓库不需要事务处理,恢复和并发控制。通常数据仓库只需要两种数据访问:数据的初始化装入和数据访问。以读为主的数据仓库中的数据主要是提供决策进行查询,一般不一定都需要即时更新,可以定期刷新或按需刷新。数据仓库基本(jīběn)特性第三页,共三十页。数据仓库项目流程(liúchéng)管理及系统性能管理和监控OLTP数据源数据仓库数据(shùjù)集市数据采集(cǎijí)及整合数据的映射规则、模型。。。(元数据管理)数据展现及决策生产财务结算外部地区分析总量分析市场分析ETL数据分析、DM终端用户终端用户数据仓库体系结构第四页,共三十页。数据仓库的结构(jiégòu)早期(zǎoqī)细节级当前(dāngqián)细节级轻度综合级数据集市高度综合级元数据操作型转换第五页,共三十页。数据仓库中的几个重要(zhòngyào)概念ETLETL(Extract/Transformation/Load)—用户从数据(shùjù)源抽取出所需的数据(shùjù),经过数据(shùjù)清洗、转换,最终按照预先定义好的数据(shùjù)仓库模型,将数据(shùjù)加载到数据(shùjù)仓库中去。元数据关于数据的数据,指在数据仓库建设过程中所产生的有关数据源定义、目标定义、转换规则等相关的关键数据。同时元数据还包含关于数据含义的商业信息。DataMart数据集市--小型的,面向部门或工作组级数据仓库。第六页,共三十页。OperationDataStore操作数据存储—ODS是能支持企业日常的全局应用的数据集合,是不同于DB的一种新的数据环境,是DW扩展后得到的一个混合形式。四个基本特点:面向主题的(Subject-Oriented)、集成的、可变的、当前或接近(jiējìn)当前的。粒度数据仓库的数据单元中保存数据的细化或综合程度的级别。细化程度越高,粒度级就越小;相反,细化程度越低,粒度级就越大。分割结构相同的数据可以被分成多个数据物理单元。任何给定的数据单元属于且仅属于一个分割。数据仓库中的几个重要(zhòngyào)概念(续)第七页,共三十页。操作(cāozuò)数据库与数据仓库的区别操作数据库系统的主要任务是联机事务处理OLTP数据仓库在数据分析和决策(juécè)方面为用户提供服务,这种系统称为联机分析处理OLAP第八页,共三十页。基本(jīběn)数据模式星型模式(móshì)日期(rìqī)维表TimeIDDayMonthYear销售事实表TimeIDProductIDRegionIDSalesQuantity产品维表ProductIDProductNameClassIDClassNameCategoryIDCategoryName地区维表RegionDCityProvinceCountry第九页,共三十页。基本数据(shùjù)模式(续1)雪花(xuěhuā)模式销售(xiāoshòu)事实表TimeIDProductIDRegionIDSalesQuantity日期维表TimeIDdayMonth产品维表ProductIDProductNameClassIDClassName地区维表RegionIDCityProvince月表MonthYear类别表ClassIDCategoryIDCategoryName省份表ProvinceCountry第十页,共三十页。