文档介绍:摘要在模型的实现过程中,大量应用了Ⅺ儿技术来进行各种映射关系的建立和充随着信息时代的到来,企业在发展过程中,积累了大量纷杂数据,如何利用这些数据来指导企业决策分析,是企业能否在竞争中取得经济效益的关键。数据仓库技术的出现满足了决策支持系统发展的需要。人们对数据分析的要求的不断提高导致了数据仓库的发展。数据是进行一切分析的基础,同时也是数据仓库的核心内容。数据抽取是建设数据仓库系统的基础问题之一,由于数据源的多样性和复杂性,如何快速准确地从各种数据源抽取数据是数据仓库系统实现的关键。这一课题己成为计算机界研究的热点,也是本文研究的核心问题。首先,提出数据抽取问题,指出建立数据抽取模型的重要性;然后,对企业应用环境进行分析,数据抽取模型是建立在企业应用环境基础之上的,因此必须对企业应用环境有全面而准确的了解;接着,在此基础上给出了模型的设计框架,并对此模型各环节进行了全面细致的分析:最后,在实际系统中对抽取模型进行了具体的设计和实现。当元数据的载体。牡蹈袷降挠没Фㄒ逍院透叨冉峁够蛊涑晌6ㄒ遄;规则,建立映射关系,以及建立虚拟数据库的最佳选择。关键词:数据仓库;数据抽取;本文的内容主要包括下面几个方面:中文摘要
,蠰..琣琗:英文摘要瓾,.,甌甌,,;,.:篋
论文作者签名:弓虢弦刁年;月工日日期:似辏辉吕论文作者签名毛鳗砂大连海事大学学位论文原创性声明和使用授权说明不保密面朐谝陨戏娇蚰诖颉”原创性声明撰写成硕士学位论文:基王臁鞅ぜ迨盏刿拥陌嗨苣骸3畚闹幸丫⒚学位论文版权使用授权书本学位论文的全部或部分内容编入有关数据库进行检索,也可采用影印、缩印或本人郑重声明:本论文是在导师的指导下,独立进行研究工作所取得的成果,引用的内容外,对论文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本论文中不包含任何未加明确注明的其他个人或集体已经公开发表或未本声明的法律责任由本人承担。本学位论文作者及指导教师完全了解“大连海事大学研究生学位论文提交、版权使用管理办法”,同意大连海事大学保留并向国家有关部门或机构送交学位论文的复印件和电子版,允许论文被查阅和借阅。本人授权大连海事大学可以将扫描等复制手段保存和汇编学位论文。保密口,在年解密后适用本授权书。本学位论文属于:保密口导师签名公开发表的成果。/
第滦髀课题研究背景课题研究现状在实际数据仓库系统的建设过程中,设计人员和开发人员往往将更大一部分精力投入到数据仓库的设计和数据挖掘前段展现工具的实现上,从而忽略了从数据源获取数据这一环节,使得系统建设在进行到这个环节时面临着搁浅。而数据实质上都是围绕着数据进行的。在这种情况下,数据抽取工作能够按照统一的规数据是砖瓦的话,那么数据抽取就是建设大厦的过程。在整个数据仓库项目中工数据仓库和数据挖掘技术的出现和迅速发展,使企业逐步看到建设数据仓库系统来支持企业决策所带来的巨大经济效益,并纷纷投入大量时间、人力和物力进行各自的数据仓库系统的建设。也使得目前的信息化建设呈现出“数据集中化、业务综合化、管理扁平化、决策科学化”的发展趋势【。然而,在企业的不断发展的过程中,由于技术、历史、地理或兼并重组等因素,往往在一个企业中并存着多个应用系统。这些应用系统可能分散于不同的网络节点、基于不同的操作平台、使用不同的数据库管理系统,而且各个子系统封闭运行,自成一体。大多数遗留下来的异构的系统以及数据源构成的应用环境不能有效地实现信息共享和交互,形成了“信息孤岛”现象,而且日益严重【,给企事业或部门的信息资源共享带来困难,从而对企事业或部门的正确决策造成建设数据仓库需要集成来自多种业务数据源中的数据,这些数据源可能处在不同的硬件和操作系统之上,在编码、命名、数据类型、语义等方面都存在较大的差异,因此如何向数据仓库中加载这些数量大、种类多、结构各异的数据,己成为建设数据仓库所面临的一个关键问题才是数据仓库的核心内容,基于数据仓库所进行的~切数据挖掘和决策分析活动,则集成并提高数据的价值,是负责完成数据从数据源向目标数据仓库转化的过程,是实施数据仓库的重要步骤。如果说数据仓库的模型设计是一座大厦的设计蓝图,作量最大的环节就是数据抽取的设计与实施,约占整个项目的%~%,这是国重大影响【“。基于氖莩槿〉难芯坑胗τ
一般都具备较完善的体系结构和久经考验的产品,产品的功能之复杂和详尽,往以及内外从众多实践中得到的普遍共识蟆与国外相比,国内对数据仓库及其相关技术的研究还相对落后。一份数据仓库市场占有率的报告显示,到年,美国的数据仓库销售额占世界的%,亚洲只占%K淙唤改甓韵喙氐难芯坑辛撕艽蠼剑ú罹嗳匀皇呛苊飨缘模产生这种情况的主要的原因有以下几个方面:蓟鄄罹嗝飨浴=ㄉ枋莶挚獾那疤崾且S写罅康氖荩乇鹗抢数据。近几年来我国数据仓库建设有了长足的发展,但与国外