文档介绍:东华大学
硕士学位论文
大宗数据中数据优化抽取方法的研究与应用
姓名:张黎明
申请学位级别:硕士
专业:计算机应用
指导教师:苏厚勤
20080305
大宗数据中数据优化抽取方法的研究与应用摘要数据抽取、转换和装载珽鞘迪数据仓库高质量数据的核心技术。面向主题地研究、设计和实现相关δ埽能够从生产现场宿主系统的数据源中获取辅助企业经营决策的集成的、聚合的关联数据,并以批量方式装载到创建的数据仓库中。本文运用数据仓库理论与技术,着重研究三层构架模式中关于在应用服务层获取分布式异构数据源面向主题数据的集成技术和方法。本文作者主要研究和实现的工作如下:在蚖环境中分别设计与实现数据库的数据抽取器莩槿∑鳎设计和实现映射异构数据库相关元数据信息并进行中文语义描述的方法,把面向开发人员的表结构信息的专用缩略语转换成面向使用人员易理解的中文语义描述;提出把统计数据对象请求分解成对宿主数据库系统的单表数据抽取的技术与方法,剥离宿主数据库系统关于多表关系运算及数值计算的做法,有效减少生产现场宿主库系统的资源开销;在应用服务层编程实现关系运算算法,基于单表数据实现多表数据的整合处理,生成适合统计分析的数据对象;在应用服务层的多表关系运算中,提出利用宿主数据库相关字典信息自动匹配多表问可能隐含的主、外键关系的方法,有效提高多表连接的处理效率:为保证响应多表连接请求抽取的数据集非空,参与设计和实现在执行请求获取数据前,通过对欲选择多表数据字段的逻辑关联推理的方法,确保响应非空集的数据请求。本文研究的最终目的是设计和实现“轨道交通自动售检票,运营管理数据分析系统”。该系统于年胀ü虾市科学技术委员会组织的科研项目验收;年日获《科学技术成果证书》羌呛牛;年栈窆野嫒ň帧都扑慊砑作权登记证书》羌呛牛关键词:三层构架模式,数据抽取,优化,关联推理,语义映射,数据仓库和东华大学硕士研究生学位论文
吐,。甋琣.:—琤,;’·
琣’琣,,’—’’—,—癆保瑆.:瑂琩;.:东华大学硕士研究生学位论文摘要
学位论文作者签名::我恪守学术道德,崇尚严谨学风。所呈交的学位论文,是本人在导师的指导下,独立进行研究工作所取得的成果。除文中已明确注明和引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写过的作品及成果的内容。论文为本人亲自撰写,我对所写的内容负责,并完全意识到本声明的法律结果由本人承担。
学位论文作者签名:弓坊髫参栽指导教师签名:荔/徉易日期:≯∥牌乡月和日期:≯·,在——年解密后适用本版权书。学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅或借阅。本人授权东华大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。本学位论文属于不保密口。
髀引言知识经济时代的商业竞争日趋激烈,企业若想立于不败之地,高效的企业管理机制不可或缺,信息化成为提升企业竞争力的必要手段。如何有效地管理企业在经营运作过程中所产生和收集的大量数据与信息,一直是信息管理人员所面临的一个重要问题Ⅲ。数据库作为企业信息的存储枢纽,不仅为企业的日常业务提供各种各样的数据服务,而且也是企业经营决策的基础。数据库管理系统在实现这两种功能上存在巨大的差别,因此衍生出以事务型处理,V鳌⒁跃霾咧С窒低,和联机分琌为主的两类不同数据库系统的构建与应用。世纪年代开始出现的关系数据库在中获得了较大的成功,但无法承担把日常业务处理中所收集到的各种数据转变为具有商业价值的信息。其原因是传统数据库的处理方式和惺菪枨蟛幌喑菩摹#饕L逑衷冢系统响应问题。在传统数据库中,用户对数据的操作时间短暂,能保证较高的系统响应时间,但决策分析问题的解决则需要遍历数据库中大部分的数据,消耗大量的系统资源,这是系统无法承担的;数据需求问题。枰H妗⒄返募墒荩獍诓扛鞑棵诺有关数据和企业外部的、甚至竞争对手的相关数据,但是在传统数据库中只存储了本部门的事务处理数据,没有与决策问题有关的集成数据,若每次用户决策分析都需要进行一次数据的集成,将极大地降低系统运行的效率;数据操作问题。传统数据库中的用户只能使用系统所提供的有限参数进行数据操作,访问受到很大的限制。而决策分析人员希望以专业用户的身份,用各种工具对数据进行多种形式的操作,结果以商业智能珺因此,决策分析需要一个能够不受传统事务处理约束、高效率处理决策分析数据的支持环境,数据仓库正是满足这一要求的数据存储和数据组织技术。数据仓库不是数据的简单堆积,而是从大量的事务型数据库中抽取数据,并将其清理、转换为新的存储格式装载而