1 / 59
文档名称:

数据挖掘PPT..ppt

格式:ppt   页数:59页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

数据挖掘PPT..ppt

上传人:q1188830 2016/6/15 文件大小:0 KB

下载得到文件列表

数据挖掘PPT..ppt

相关文档

文档介绍

文档介绍:1 数据仓库 Data Warehouse 2 事务型处理?事务型处理:即操作型处理,是指对数据库的联机操作处理 OLTP 。事务型处理是用来协助企业对响应事件或事务的日常商务活动进行处理。它是事件驱动、面向应用的,通常是对一个或一组记录的增、删、改以及简单查询等(大量、简单、重复和例行性)。?在事务型处理环境中,数据库要求能支持日常事务中的大量事务,用户对数据的存取操作频率高而每次操作处理的时间短。 3 分析型处理?分析型处理:用于管理人员的决策分析,例如 DSS 、EIS 和多维分析等。它帮助决策者分析数据以察看趋向、判断问题。?分析型处理经常要访问大量的历史数据,支持复杂的查询。?分析型处理过程中经常用到外部数据,这部分数据不是由事务型处理系统产生的,而是来自于其他外部数据源。 4 事务型处理数据和分析型处理数据的区别特性 OLTP OLAP 特征面向用户功能 DB 设计数据汇总视图工作单位存取关注操作访问记录数用户数 DB规模优先度量操作处理事务办事员、 DBA 、数据库专业人员日常操作基于 E-R ,面向应用当前的;确保最新原始的,高度详细详细,一般关系短的、简单事务读/写数据进入主关键字上索引/散列数十个数千 100MB 到GB 高性能,高可用性事务吞吐量信息处理分析知识工人(如经理、主管、分析员) 长期信息需求,决策支持星形/雪花,面向主题历史的;跨时间维护汇总的,统一的汇总的,多维的复杂查询大多为读信息输出大量扫描数百万数百 100GB 到TB 高灵活性,端点用户自治查询吞吐量,响应时间 5 数据库系统的局限性?数据库适于存储高度结构化的日常事务细节数据,而决策型数据多为历史性、汇总性或计算性数据,多表现为静态数据,不需直接更新,但可周期性刷新。?决策分析型数据是多维性,分析内容复杂。?在事务处理环境中,决策者可能并不关心具体的细节信息,在决策分析环境中,如果这些细节数据量太大一方面会严重影响分析效率,另一方面这些细节数据会分散决策者的注意力。 DB2 Oracle SQL Server Excel spreadsheet XML document SSL client applications Browsers Data management layer Application layer Web servers 6 数据库系统的局限性(续) ?当事务型处理环境和分析型处理环境在同一个数据库系统中, 事务型处理对数据的存取操作频率高,操作处理的时间短, 而分析型处理可能需要连续运行几个小时,从而消耗大量的系统资源。?决策型分析数据的数据量大,这些数据有来自企业内部的, 也有来自企业外部的。来自企业外部的数据又可能来自不同的数据库系统,在分析时如果直接对这些数据操作会造成分析的混乱。对于外部数据中的一些非结构化数据,数据库系统常常是无能为力。7 多库系统的限制?可用性:源站点或通信网络故障将导致系统瘫痪, 源站点不能通过网络在线联入多库系统。?响应速度:全局查询多级转换和通信传输, 延迟和低层效率影响响应速度。?系统性能:总体性能取决于源站点中性能最低的系统, 影响系统性能的发挥; ?系统开销:每次查询要启动多个局部系统, 通信和运行开销大。 8 实施数据仓库的条件?数据积累已达到一定规模?面临激烈的市场竞争?在IT方面的资金能得到保障 9 数据仓库的发展?自从 NCR 公司为 Wal Mart 建立了第一个数据仓库。? 1996 年,加拿大的 IDC 公司调查了 62 家实现了数据仓库的欧美企业,结果表明:数据仓库为企业提供了巨大的收益。?早期的数据仓库大都采用当时流行的客户/服务器结构。近年来分布式对象技术飞速发展,整个数据仓库体系结构从功能上划分为若干个分布式对象,这些分布式对象不仅可以直接用于建立数据仓库,还可以在应用程序中向用户提供调用的接口。? IBM 的实验室在数据仓库方面已经进行了 10 多年的研究,并将研究成果发展成为商用产品。?其他数据库厂商在数据仓库领域也纷纷提出了各自的解决方案。 10 数据仓库(Data Warehouse) ?数据仓库用来保存从多个数据库或其它信息源选取的数据, 并为上层应用提供统一用户接口,完成数据查询和分析。支持整个企业范围的主要业务来建立的,主要特点是,包含大量面向整个企业的综合信息及导出信息。?数据仓库是作为 DSS 服务基础的分析型 DB ,用来存放大容量的只读数据,为制定决策提供所需要的信息。?数据仓库是与操作型系统相分离的、基于标准企业模型集成的、带有时间属性的、面向主题及不可更新的数据集合。?以 1992 年 W H Inmon 出版《 Building the Data Warehouse 》为标志,数据仓库发展速度很快。 W H Inmon 被