文档介绍:江西财经大学
硕士学位论文
基于统计视角的数据挖掘应用研究
姓名:胡军刚
申请学位级别:硕士
专业:统计学
指导教师:刘小瑜
20081001
要摘数据挖掘作为一个新型的跨领域的综合性学科,一经出现便显示出其强大的生命力。统计学、数据仓库和机器学习技术共同构成数据挖掘的三大核心技术,统计方法也是最基本的数据挖掘方法之一,它渗透于数据挖掘领域的各个阶段。但从目前国内外的研究现状看,从事数据挖掘研究的主要是计算机领域的学者和专家,统计学界的学者和专家对数据挖掘的研究相对较少。而随着数据存储技术的不断发展,可用于数据分析的数据量越来越大,对传统的统计分析技术提出了本文尝试从统计学的角度对数据挖掘进行应用性研究,使统计学方法适应数在数据挖掘方向的发展做出探索。首先,针对目前数据挖掘大多侧重于算法设计及实现的现状,本文着重归纳总结了国内外统计学领域的专家、学者在数据挖掘方面的探索和取得的成果,奠定了本文的理论基础。然后分别从内涵、区别、联系等方面对统计学与数据挖掘的关系进行了详尽对比分析,以释清疑惑,明确本文的出发点。接下来着重从统计学的角度对数据挖掘中主要的技术和方法进行综述,其中既有对数据挖掘中使用的传统统计方法的概括,也有对其它领域的数据挖掘技术、方法的统计学角度的尝试性阐释,最后还给出了评价各种数据挖掘方法的统计学标准。实证部分是本文的重点章节,在结构方面,依据统计学的理论框架分为了描述性数据挖掘与预测性数据挖掘两部分。在描述性数据挖掘中利用统计学的思维和方法对原始数据进行了大量探索性分析辉7治觥⒍7治觥⒍嘣7治,从而对待挖掘的数据有了一个整体的概括性了解,便于进一步明确挖掘的思路及所用的方法。随后将质量指标缬捌婪种与数量指标劭词相结合并引进概率理论建立了用户类兴趣评价模型,实现了第一步的挖掘任务。在预测性数据挖掘阶段针对现有聚类方法及统计软件无法实现动态聚类的不足,根据聚类分析的基本思想及此次挖掘任务的特殊要求提出了改进后的动态聚类分析方法,并将其利用编程实现。另外,在整个挖掘过程中为适应各种挖掘方法的需要,对数据进行了一系列的创造性的编程处理,随后综合运用了当今的主流统计,进行了关联规则挖掘及决策树的建立并用于预测,对于上编程来综合实现。统计学如何为数据挖掘服务,这是在“数据挖掘伤俜⒄沟慕裉欤臣乒极大的挑战。据量变化,继续发挥其处理数据、分析数据的重要作用,.述软件无法解决的任务同时辅以
作者必须回答的一个问题。随着统计学与现代信息技术的融合,数据挖掘技术与统计学的集成己成为必然的趋势,也必定会为统计学和数据挖掘未来的发展开辟关键词:数据挖掘个性化推荐一片新的天地。统计学
甌,琩甒,,,.,..,.,,,.,琣瑃瓵琩琧,..,痠甌.
..琒琣,甃”,.,.瑆、析.‘‘’篋
签名:趟猁魄盥幽独创性声明关于论文使用授权的说明日期:,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写的研究成果,、使用学位论文的规定,即:学校有权保留送交论文的复印件,允许论文被查阅和借阅;学校可以公布论文的全部或部分内容,可以采用影印、
髀选题意义选题背景据淹没,但却缺乏知识”的挑战,新的数据处理技术一数据挖掘近十几年来,随着数据库系统的广泛流行以及计算机技术的快速发展,人们利用信息技术生产和搜集数据的能力大幅度提高。成千上万的数据库被用于商业管理、政府办公、科学研究和工程开发等,特别是网络系统的流行,使得信息爆炸性增长,而且这一趋势仍将持续发展下去。市场调研机构腿砑綞在他们题为《膨胀的数字世界》的研究报告中指出,年所创建、存储及复制的数字信息总量达到了亿,相当于有史以来全部书籍信息量的虮丁预计到年,这个数字将增长到亿。大量信息在给人们带来方便的同时也带来了一大堆问题:第一是信息过量,难以消化;第二是信息真假难以辨识;第三是信息安全难以保证;第四是信息形式不一致,难以统一处理。面对这种状况,一个新的挑战被提了出来:如何才能不被信息的汪洋大海所淹没,从中及时发现有用的知识,提高信息利用率呢O使数据真正成为一个企业的资源,只有充分利用它为企业自身的业务决策和战略发展服务,使决策建立在或者参考历史数据基础上,而不是完全由领导者的直觉决定的,否则大量的数据可能成为包袱,甚至成为垃圾。因此,面对“人们被数褪谴哟罅康摹⒉煌耆ǖ摹⒂性肷摹⒛:摹⑺机的实际