文档介绍:该【第5章数据仓库的工具 】是由【hhhhh】上传分享,文档一共【80】页,该文档可以免费在线阅读,需要了解更多关于【第5章数据仓库的工具 】的内容,可以使用淘豆网的站内搜索功能,选择自己适合的文档,以下文字是截取该文章内的部分文字,如需要获得完整电子版,请下载此文档到您的设备,方便您编辑和打印。第5章数据仓库的工具(gōngjù)本章要点:如何选择数据仓库产品一般数据仓库产品的组成(zǔchénɡ)常见的数据仓库产品第一页,共八十页。(chǎnpǐn)(chǎnpǐn),共八十页。(chǎnpǐn)组成数据(shùjù)集市关系数据库数据源数据准备区各种服务工具等等。第三页,共八十页。(shùjù)集市数据集市是数据仓库的子集,是按主题(zhǔtí)从数据仓库中划分出来的数据集合。数据集市通常按职能部门为单位为其提供数据,例如,销售部门、财务部门、库存部门等的数据集市。由于数据集市中只包含面向某个主题的数据,因此数据量比较小,方便与各种分析工具建立连接,利于用户使用。第四页,共八十页。(zǔchénɡbùfèn),数据仓库要想发挥出真正的威力必须由关系数据库为其提供强大的基础引擎。在数据仓库的应用过程中关系数据库为其提供了许多必不可少的功能,如在数据准备数据库中临时储存、清理、转换传入的数据;为数据仓库提供存储引擎、快速传输和修改、以及灵活的索引机制,容纳和管理数据仓库中海量的数据并支持数据集市。第五页,共八十页。,因此数据仓库必须要将企业内部或外部的各种信息集中起来,合并为一致的数据集。这些数据的来源各不相同,可以来自关系型数据库中的数据,也可以来自各种电子表格,甚至是文本数据。在一个大型企业中通常会存在多个OLTP系统来捕获日常业务运作情况,这些OLTP系统由不同的部门设计并使用不同的数据结构和数据元素,虽然这些数据源的数据不能直接用于决策支持(zhīchí),但是也必须将它们捕获到数据仓库中,因为这些长期积累的数据是建立数据仓库的重要基础第六页,共八十页。(shùjù)准备区数据仓库从不同的数据源抽取数据后,需要对这些数据进行清理和格式化以保证与其他保存在数据仓库中数据的一致性。数据准备区又被称为数据中间(zhōngjiān)存储区,实际上数据准备区也是一个关系型数据库,数据仓库从其他数据源提出的数据首先要保存在这个关系型数据库中,在这里将数据转化为数据仓库要求的统一格式,并检查数据的一致性和引用完整性,并准备装载入数据仓库的数据库中。通常情况下,数据准备区和数据仓库是分开的,但是如果对数据的清洗和转换操作不影响到数据仓库为最终用户提供服务的性能,数据准备区和数据仓库也是可以合并在一起的。第七页,共八十页。(fúwù)工具建设(jiànshè)数据仓库的目的是为决策者提供必要的决策数据,因此根据决策者的要求为了提供决策者所需要的信息,数据仓库必须使用相关工具来帮助它分析和评估数据仓库中浩瀚的数据,例如在线分析处理(OLAP)、数据挖掘工具、预定义报表等等。另外,数据仓库也必须留有相关的应用程序接口(API)以支持用户开发自定义的数据仓库服务工具。第八页,共八十页。(chǎnpǐn),因此数据仓库产品中最关键的技术就是如何来管理这些海量的数据,通过索管理、有效溢出管理等技术能够实现对数据仓库中大量数据的管理要求,通常用户在选购数据仓库产品时首先考虑的就是数据仓库产品对海量数据的管理能力能否满足自身(zìshēn)的要求。,这就要求数据仓库产品能够使用索引技术建立适当的关键数据索引,如二级索引、临时索引、稀疏索引等索引技术,同时还要能够保证建立、使用和管理这些索引所付出的代价不能太高。第九页,共八十页。(chǎnpǐn) 如果数据仓库产品希望在大型的应用环境中使用,那么它必须具备对数据的监控能力。在数据仓库运行的过程中,数据监控组件要一直对数据仓库中的数据进行实时的监视,通过收集数据访问信息区分出那些数据是经常被使用的,那些是很少被使用的、那些索引建立的不恰当、那些数据应该进行重新的分类组合等等。而且数据监控组件还要对硬件(yìnɡjiàn)系统资源的使用情况进行跟踪监控,如内存和cpu的使用率、硬盘空间的剩余情况、并发用户的数据、并发线程的数量等。第十页,共八十页。