文档介绍:数据挖掘概念与技术——第二章——滕少华编 Jiawei Han (加)著 Micheline Kamber http:// 第二章:数据仓库和数据挖掘的 OLAP 技术什麽是数据仓库? 多维数据模型数据仓库的系统结构数据仓库实现数据立方体技术的进一步发展从数据仓库到数据挖掘什么是数据仓库? ?数据仓库已被多种方式定义但没有一种严格的定义。?一个与组织结构的操作数据库分别维护的决定支持数据库。?为统一的历史数据分析提供坚实的平台,对信息处理提供支持。?“数据仓库是一个面向主体的、集成的、时变的、非易失的数据集合,支持管理过程的决策过程”— W. H. Inmon ?建立数据仓库?构造和使用数据仓库的过程?围绕一些主题如顾客、供应商、产品和销售等而组织。?关注于决策者的数据建模和分析,而不是集中于组织机构的日常操作和事务处理。?数据仓库排除与对于决策无用的数据,提供特定主题的简明视图。数据仓库——面向主题的?通过集成多个异种数据源而构成。?关系数据库、一般文件和联机事务处理记录。?使用数据清理和数据集成技术。?在不同的数据源中,确保命名约定、编码结构、属性度量等的一致性。?例如,旅馆价格:由住宿费、税收、附带的早餐费等等构成。?数据被移到数据仓库时就进行了数据转换。数据仓库——集成的数据仓库——时变的?数据仓库的时间范围明显长于操作系统. ?操作数据库:当前的有用信息。?数据仓库数据:从历史的角度提供信息(例如:过去的 5-10 年) ?数据仓库的每一个关键结构?隐式或显示的包含时间元素?但操作数据的关键结构可以包含也可以不包含“时间元素”数据挖掘——非易失的?数据仓库总是物理地分离存放数据,这些数据源于操作环境下的应用数据?操作性的数据更新不会发生在数据仓库的环境下. ?数据仓库不需要事务处理、恢复和并发控制机制?它只需要两种数据访问: ?数据的初始装入和数据访问数据仓库和异源 DBMS ?传统的异种数据路的集成: ?在异种数据库的顶部建立一个包装程序和集成程序?查询驱动方法?当一个查询提交客户站点,首先使用元数据字典对查询进行转换, 将它转换成相应异种站点上的查询,然后,不同站点返回的结果被集成为全局回答?查询驱动方法需要复杂的信息过滤,并且与局部数据源上的处理竞争资源?数据仓库:使用更新驱动的方法,为集成的异种数据库系统带来了高性能?将来自多个异种源的信息预先集成,并存储与数据仓库中,供直接查询和分析数据仓库和操作数据库系统?联机事务处理 OLTP (on-line transaction rocessing ) ?传统的关系 DBMS 的主要任务?他们涵盖了一个组织的大部分日常操作:购买、库存、制造、银行、工资、注册、记账等。?联机分析处理 OLAP (on-line analytical processing) ?数据仓库系统的主要任务?数据分析和决策? OLTP 和 OLAP 的区别?用户和系统的面向性:OLTP 面向顾客,而 OLAP 面向市场?数据内容: OLTP 系统管理当前数据,而 OLAP 管理历史的数据。?数据库设计: OLTP 系统采用实体-联系( ER) 模型和面向应用的数据库设计,而 OLAP 系统通常采用星形和雪花模型?视图: OLTP 系统主要关注一个企业或部门内部的当前数据,而 OLAP 系统主要关注汇总的统一的数据。?访问模式: OLTP 访问主要有短的原子事务组成,而 OLAP 系统的访问大部分是只读操作,尽管许多可能是复杂的查询 OLTP vs. OLAP