1 / 6
文档名称:

数据仓库、联机分析处理与数据挖掘.pdf

格式:pdf   大小:745KB   页数:6页
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

数据仓库、联机分析处理与数据挖掘.pdf

上传人:1781111**** 2024/5/11 文件大小:745 KB

下载得到文件列表

数据仓库、联机分析处理与数据挖掘.pdf

相关文档

文档介绍

文档介绍:该【数据仓库、联机分析处理与数据挖掘 】是由【1781111****】上传分享,文档一共【6】页,该文档可以免费在线阅读,需要了解更多关于【数据仓库、联机分析处理与数据挖掘 】的内容,可以使用淘豆网的站内搜索功能,选择自己适合的文档,以下文字是截取该文章内的部分文字,如需要获得完整电子版,请下载此文档到您的设备,方便您编辑和打印。:..数据仓库、联机分析处理与数据挖掘广义概念上的数据仓库是一种帮助企业做决策的体系化解决方案,它包括了三个方面的内容:数据仓库技术(DataWarehouse,DW)?联机分析处理技术(On-lineAnalyticalProcessing,OLAP)?数据挖掘技术(DataMining,DM)数据仓库、联机分析处理和数据挖掘作为信息处理技术是独立出现的。数据仓库用于数据的存储和组织;联机分析处理则侧重于数据的分析;数据挖掘则致力于知识的自动发现。因此这三种技术之间并没有内在的依赖关系,可以独立地应用到企业信息系统的建设之中,以提高信息系统相应的能力。但是,这三种技术之间确实存在着一定的联系性和互补性,把它们结合起来,就可以使它们的能力更充分地发挥出来。这样就形成了一种决策支持系统的架构,即DW+OLAP+DM。1、数据仓库技术⑴概述数据仓库是一种只读的、用于分析的数据库,常常作为决策支持系统的底层。它从大量的事务性数据库中抽取数据、并将其清理、转换为新的存储格式,即为了决策目标而把数据聚合在一种特殊的格式中。数据仓库是支持管理决策过程的、面向主题的、集成的、随时间变化的、但信息本身相对稳定的数据集合。其中,“主题”是指用户使用数据仓库辅助决策时所关心的重点问题,每一个主题对应一个客观分析领域,如销售、成本、利润的情况等。“面向主题”就是指数据仓库中的信息是按主题组织的,按主题来提供信息。“集成的”是指数据仓库中的数据不是业务处理系统数据的简单拼凑与汇总,而是经过系统的加工整理,是相互一致的、具有代表性的数据。“随时间变化”是指数据仓库中存储的是一个时间段的数据,而不仅仅是某一个时间的数据,所以主要用于进行时间趋势分析。一般数据仓库内的数据时限为5到10年,数据量也比较大。“信息本身相对稳定”是指数据一旦进入数据仓库,一般情况下将被长期保留,变更很少。⑵数据仓库组织和管理数据的方法与普通数据库的不同点主要表现在三个方面:①它依据决策要求,只从数据库中抽取那些需要的数据,并进行一定的处理。②数据仓库是多维的,即数据仓库中数据的组织方式有多层的行和列。③它支持决策处理,不同于普通的事务处理。⑶数据仓库需要的数据库技术的支持:1页共6页:..①并行数据库技术:数据仓库中的数据量很大,一般要达到GB级,有的甚至要到TB级。对于处理如此大规模的数据,使用并行技术对提高运行效率是很有帮助的。②高性能的数据库服务器:传统数据库的应用是操作型的,而数据仓库的应用是分析性的,它需要有高性能的数据库服务器配合工作,对DBMS核心的性能也有更高的要求。③数据库互操作技术:数据仓库的数据来源多种多样,可能来自数据库,也可能来自文件系统。即使都来自数据库,这些数据库也往往是异构的。为了从这些异构数据源中定期抽取、转换和集成所需要的数据存入库中,异构数据源之间的互操作技术是必需的。2、联机分析处理技术联机分析处理是针对特定问题的联机数据访问和分析,通过对信息进行快速、稳定、一致和交互式的存取,对数据进行多层次、多阶段的分析处理,以获得高度归纳的分析结果。联机分析处理是一种自上而下、不断深入的分析工具,在用户提出问题或假设之后,它负责提取出关于此问题的详细信息,并以一种比较直观的方式呈现给用户。联机分析处理技术的发展速度很快,在数据仓库的概念提出不久,联机分析处理的理论及相应工具就被相继推出了。联机分析处理要求按多维方式组织企业的数据。多维数据库的发展使决策分析中的数据结构和分析方法相分离,才有可能研制出通用而灵活的分析工具,并使分析工具产品化。决策分析需要从不同的角度观察分析数据,以多维数据为核心的多维数据分析是决策的主要内容。多维数据库是以多维方式组织数据的。目前,联机分析处理的工具可分为两类:一类是基于多维数据库的,另一类是基于关系数据库的。两者的相同点是基本数据源仍是数据库和数据仓库,都是基于关系数据模型的,都向用户显示多维数据视图;不同点在于,前者把分析所需的数据从数据仓库中抽取出来,物理地组织成多维数据库,而后者则是利用关系表来模拟多维数据,并不是物理地生成多维数据库。3、数据挖掘技术数据挖掘的基本思想是从数据中抽取有价值的信息,其目的是帮助决策者寻找数据间潜在的关联,发现被忽略的要素,而这些对预测趋势和决策行为也许是十分有用的。从数据库的角度看,数据挖掘就是这样一个过程,它从数据库的数据中识别出有效的、新颖的、具有潜在效用的并最终可理解的信息(如规则、约束等)的非平凡过程。非平凡是一个数学概念,即数据挖掘既不是把数据全部抽取,也不是一点儿也不抽取,而是抽取出隐含的、未知的和可能有用的信息。从决策支持的角度看,数据挖掘是一种决策支持的过程,主要基于人工智能、机器学****统计学和数据库技术等多种技术,能高度自动地分析企业原有的数据,进行归纳推理,从中挖掘出潜在的模式,预测客户的行为,帮助企业决策者调整市场策略,从而减少风险、辅助做出正确的决策。它是提高商业和科学决策过程中的质量和效率的一种新方法。2页共6页:..数据挖掘和联机分析处理都可以在数据仓库的基础上对数据进行分析,以辅助决策。其中,联机分析处理还是一种传统的决策支持方法,即,在某个假设的前提下通过数据查询和分析来验证和否定这个假设,所以联机分析处理是一种验证性的分析。与联机分析处理不同,数据挖掘是数据驱动的,是一种真正的知识发现方法。使用数据挖掘工具,用户不必提出确切的要求,系统能够根据数据本身的规律性,自动地挖掘数据潜在的模式,或通过联想,建立新的业务模型,帮助决策者调整市场策略,并找到正确的决策,这显然有利于发现未知的事实。从数据分析深度的角度看,联机分析处理位于较低的层次,而数据挖掘则处于较深的层次。所以,联机分析处理和数据挖掘的主要差别就在于是否能自动地进行数据分析。4、决策支持系统在传统的决策支持系统中,数据库、模型库和知识库往往被独立地设计和实现,因而缺乏内在的统一性。而以数据仓库为中心、事务处理和数据挖掘为手段的新方案很好地解决了这个问题。⑴数据仓库解决了数据不统一的问题。数据仓库自底层数据库收集大量事务级数据的同时,对数据进行集成、转换和综合,形成面向全局的数据视图,形成整个系统的数据基础。⑵联机分析处理从数据仓库中的集成数据出发,构建面向分析的多维数据模型,利用这个带有普遍性的数据分析模型,用户可以使用不同的方法,从不同的角度对数据进行分析,实现了分析方法和数据结构的分离。⑶数据挖掘以数据仓库和多维数据库中的大量数据为基础,自动地发现数据中的潜在模式,并以这种模式为基础自动做出预测。数据挖掘反过来又可以为联机分析处理提供分析的模式。正是由于数据仓库、联机分析处理和数据挖掘这三种技术的联系性和互补性,使他们从不同的角度为决策支持服务。随着企业竞争的日益加剧,这种新型的决策支持系统解决方案将受到越来越多的企业的青睐。3页共6页:..数据库技术与电子商务数据库技术对电子商务的支持是全方位的,从底层的数据基础到上层的应用都涉及到数据库技术。。从图中可以看出,数据库技术对于电子商务的支持可以概括为以下几部分:1、数据的收集、存储和组织这是传统数据库系统的主要功能,对于参与电子商务的企业而言,数据的来源不仅仅是企业内部管理信息系统,还包括大量的外部数据。数据是企业的重要资源,是决策的依据,是进行各种生产经营活动的基础和结果。2、决策支持这就要用到前面所提到的数据仓库解决方案。这时数据库中存储的数据依然是决策的依据。决策关系到企业未来成败的关键。电子商务系统如果缺少好的决策支持功能,一方面是对电子商务海量数据资源的一种浪费,另一方面也是对从事电子商务的企业的一种损失。3、对EDI的支持EDI是电子商务重要的组成部分,要想成功地实现EDI,企业的基础设施建设是关键,而数据库系统的建设是其中重要的一环。如果有良好的数据库系统的支持,就可以实现应用到应用的EDI过程。这一过程是企业内部的管理信息系统依据业务情况自动产生EDI订单,4页共6页:..并传输给贸易伙伴;而对方传来的EDI单证也可以由系统自动解释,并存入相应的数据库,整个过程无需人工干预。因此,业务数据库和EDI系统之间的接口就变得非常重要。这个接口的功能可以概括为:⑴提供标准的信息格式定义。⑵与数据库管理系统的无关性。⑶自动抽取数据库中的相关数据转换为Edi单证格式。⑷自动抽取EDI单证的关键数据存储到数据库中。在这一过程中,可以设立一个EDI数据库专门用于有关EDI数据的处理。这样的管理方式简单明了,但如果数据库之间的沟通不顺畅,就可能产生数据不一致的现象。4、Web数据库随着加入到Web中来。当前许多企业纷纷在Web上开发自己的主页来介绍自己的产品和服务。有的网页不仅有琳琅满目的产品信息和优惠的价格,还配有详细的专家评论,牢牢抓住了网上用户的心理。企业不仅可以通过Web发布自己的信息,同时也可以收集顾客的需求信息。这样给双方都带来了好处。对于企业而言,它不仅可以用相对低的成本介绍和展示其产品和服务,也可以获得准确的客户需求信息。对于顾客而言,浏览网页省时省力,而且可以及时把要求反映给厂家,定制出自己喜欢的产品。而且,访问Web都是通过浏览器,这样就统一了界面,有利于行业标准化。Web数据库是一个新兴事物,Web与数据库的结合,主要是源于两者各自的优势和缺陷。⑴Web的特点Web上数据量大、类型多、缺乏组织和管理。目前Web中字节量的增长速度达到每月15%以上。因为Web的链接资源是非官方的,所以Web的数据缺少规范。目前Web上的数据主要由静态HTML表达,其优点是表现能力强,链点跳转灵活,与平台无关。但由于Web页面结构自由性大,致使Web上的信息又多又混乱。就管理角度而言,Web的数据管理只相当于20世纪70年代的文件管理水平。而且HTML文件动态更新特性差,用户很难得到最新的消息反馈。⑵数据库技术的特点当前的数据库管理系统已发展到相当成熟的阶段,能高效、高质、安全地管理数据。与Web相比,数据库管理系统显得严谨而灵活不足。Web与数据库结合,可以集Web和数据库的诸优点于一身。前端有界面友好的Web浏览器,后台则由成熟的数据库技术作支撑。这样无疑会给企业一个良好的应用环境。数据库是企业管理信息系统中用来管理信息的工具,所以数据库技术是渗透在其中,无处不在的。电子商务作为新型的企业经营管理模式,当然也离不开数据库技术的支持。如今,数据库技术正在为推进电子商务应用发挥巨大的作用,将来随着数据库技术飞速地发展,它一定会为优化企业管理模式做出巨大的贡献。5页共6页:..6页共6页