1 / 43
文档名称:

一种基于云计算的数据挖掘平台架构设计与实现.pdf

格式:pdf   页数:43
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

一种基于云计算的数据挖掘平台架构设计与实现.pdf

上传人:山吉 2014/2/17 文件大小:0 KB

下载得到文件列表

一种基于云计算的数据挖掘平台架构设计与实现.pdf

文档介绍

文档介绍:青岛大学
硕士学位论文
一种基于云计算的数据挖掘平台架构设计与实现
姓名:纪俊
申请学位级别:硕士
专业:计算机软件与理论
指导教师:邵峰晶
20090603
摘要关键词:数据挖掘;云计算;数据规约;分布式系统网络技术在带给人们大量信息的同时,也极大地增加了人们从海量数据中发现有用知识的难度,而解决这一问题的努力促进了数据挖掘技术的出现和快速发展。目前,数据挖掘技术已在金融、医疗、军事、管理等诸多领域的决策分析方面被广泛应用。云计算是能提供动态资源池、虚拟化和高可用性的计算平台。云计算开发平台可被用来开发高性能应用程序,但数据本身具有噪声、异构等问题,而现有的云计算开发平台当前还没有数据规约功能,利用云计算进行数据挖掘的解决方案尚未被提出。针对上述问题,首先,扩展开发平台,设计与实现其数据规约功能,主要解决异构数据访问问题与未存在数据类型访问问题;然后,在扩展的开发平台基础上设计与实现一数据挖掘系统,通过实验验证数据规约功能的有效性及云计算平台执行数据挖掘操作的高效性。在数据规约模块设计过程中,通过采用可被扩展的元数据定义、数据集模板定义及数据集定义逐层抽象数据集的数据类型、数据结构、访问地址等信息,实现对异构数据集的抽象以及对未有数据类型的访问。在基于云计算的数据挖掘系统设计过程中,基于分层设计的思想,将该平台的层次自底向上划分为:算法层、任务层和用户层,其中,底层透明的为其上层提供服务,上层通过层间开放接口调用下层服务,使得层与层之间的功能相对独立,易于系统的二次开发。同时各层接口均以接口方式对外开放,可被开发者嵌入到其应用程序中。在算法层设计过程中设计了多层插件框架结构,增加了算法实现与维护的灵活性。最后,在对系统开发环境及系统开发关键技术分析的基础上,给出了基于云计算的数据挖掘平台原型的实现过程。并通过实验数据分析,验证了目标的有效性与高效性。
琺·,‘..·甋,,.协。,。.··,—瓻篸;籨籨
菀晃咕海骸芏魅既瞬坏蒙米允褂茫论文作者躲,.。芦肌日日期:久幻丁椭,论文作者签名:芗移予文学位论文独创性声明学位论文知识产权权属声明不保密面。本人声明,所呈交的学位论文系本人在导师指导下独立完成的研究成果。文中依法引用他人的成果,均已做出明确标注或得到许可。论文内容未包含法律意义上已属于他人的任何形式的研究成果,也不包含本人已用于其他学位申请的论文或成本人如违反上述声明,愿意承担由此引发的一切责任和后果。本人在导师指导下所完成的学位论文及相关的职务作品,知识产权归属学校。学校享有以任何方式发表、复制、公开阅览、借阅以及申请专利等权利。本人离校后发表或使用学位论文或与该论文直接相关的学术论文或成果时,署名单位仍然为青岛大学。本学位论文属于:保密口,在年解密后适用于本声明。果。。
第一章引言课题研究目的与意义随着计算机科学与技术的迅速发展,越来越多皇数据被存储在计算机存储分质中,这缝数据往往是大量的、复杂的、异构的、有噪声的,很难通过人工直接理解,其中蕴含的知识与模式更是雉以被发现。掰在科研与商业等领域,经常需要分析这些数据,从中发现有价值的信息与模式或对未来做预测。为迎接这些挑战,来自不阉学科的研究者汇集捌一起,着手开发可以处理不同数据类型的受有效盼、可俘缩的技术与工具,数据挖掘魑R幻沤徊嫜Э朴υ硕U些工作建立在研究者壳蓠使溺的方法学帮算法之上,在数据挖掘领域达到高潮。特别地是,数据挖掘利用了来朗如下一些领域的思想:醋酝臣蒲У某檠⒐兰和假设检验,斯ぶ悄堋⒛J绞侗鸷突餮暗乃阉魉惴ā⒔<际鹾脱袄论。数据挖掘也迅速地接纳了来自其他领域的思想,这些领域包括最优化、进化计算、信息论、信号处理、可褫化和倍息检索。数据挖掘又称为数据库中的知识发现,是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。它的盥埂使褥之前很多无法放理解的历史数据得到了利片?蒲а芯坑肷蘝霾叩榷喔隽煊蚱鸬搅酥傅甲饔茫哂猩钤兜纳缁岷途这些年来,随羞计算机网络技术特别是阏格计算与云计算的发展,越来越多的数据分布式的存储在嘲络中,这些海量的、分布式的、异构的、.复杂的数据给数据挖掘系统的实现带来了强大难题:蓠先,处理这些数据熬复杂度很高,系统的计算能力很难达到要求,此时传统的单机服务器所能提供的有限计算资源往往能满足要求,需要借助分布式计算技术来实瑗人规模著行计算。云计算是畿提供动态资源涟、康拟纯黧遙P缘募扑闫教āT萍扑憧7⑵教可被用来开发高性能应用程序,但数据本身具有噪声、异构等问题,而现有的云计算开发平台当前还没有数据规约功能,剩崩云计算进行数据挖掘籍解凌方案尚未被提出。针对上述问题,首先,扩展开发平台,设计与实现其数据规约功能,主要解决异构