文档介绍:浙江工商大学
博士学位论文
基于统计视角的数据挖掘研究
姓名:徐雪琪
申请学位级别:博士
专业:统计学
指导教师:李金昌
20070601
基于统计视角的数据挖掘研究摘要出了极大的挑战。笔者认为数据挖掘的出现州峭臣蒲视φ庖槐计学理论在数据挖掘力询的发展做出探索。数据挖掘是一个年轻、活跃的研究领域,/卜同专业背景的研究者侧重于不同方面对数据挖掘展开了研究。从目前国内外的研究现状看,从事数据挖掘研究的主要是计算机领域的学者和专家,统计界的学者和专家对数据挖掘的研究相对较少。而随着数据存储技术的不断发展,可用于数据分析的数据量越来越大,对传统的统计分析技术提化的新的发展方向,数据挖掘并不是为了替代传统的统计分析技术,而是统计分析方法的延伸和扩展。本文从统计学视角研究数据挖掘,以期从统计学角度对数据挖掘理论的研究有所突破和创新,同时对统全文除了绪论,共分为七章。第挛#夯谕臣剖咏堑氖萃诰蚶砺偬逑笛芯俊Mü允挖掘与统计学理沦基础、方法等方面的比较,清晰地提出谕臣视角的数据挖掘体系,改变把芯恐腥嗣嵌酝臣蒲в胧萃诰蛑间理解的模糊认识。第二章为:数据挖掘统计方法综述。首先对数据挖掘数据源、属性类犁和功能三个基本问题:了界定,然后对实现其中的关联、聚类、分类和同归四项功能的统计方法进行综述,并对其恍┩臣品椒ù浙江工商人学博畚基十统计视珀的数据挖掘研究
数据挖掘应用角度作了一些完善和改进。第三章为:数据挖掘统计方法进一步研究。主要进行了特征描述统计。方法研究和聚类挖掘距离函数和相似系数研究。在特征描述统计方法研究中,提出了在本文设计的可视化数据挖掘系统将把特征描述作为一‘个独立的挖掘功能模块来实现的思路,提出了特征描述过程模型,进而根据建立的过程模型系统地研究了各个步骤可采用的统计方法。在聚类挖掘距离函数和相似系数研究中,系统地研究了各类属性的距离函数和相似系数,并分析了各个距离两数和相似系数的优缺点或适用性。第四章为:数据挖掘质量问题研究。从数据挖掘整个过程考虑把数据挖掘质量问题分为以下三类:源数据的质量问题、数据集成时的质量问题和数据分析时的质量问题,并针对同问题从统计学的角度分别提出了相应有效的解决方法。笫五章为:可视化数据挖掘原型实现。首先从数据挖掘原型的应用场景、使用对象、过程模型和模型表示四个方面研究了数据挖掘原型设讨‘基础,然后设计并部分实现了可视化数据挖掘原型系统馐潜疚牡牧硪幌钪匾Q芯磕谌荨8孟低尘哂辛榛畹牟作过程、便捷的扩展方式和全面的接口封装三大特点。第六章为:数据挖掘在实际数据库上的应用示例。完成了数据挖掘在浙江省联通炫铃用户实际数据库中的应用示例,首先介绍了实验数据库,然后分不同时间段来实现最有价值客户的挖掘,最后作了铃音关联挖掘。
第七章为:全文总结及研究展望。主要对全文工作进行总结,并对下一步的研究作出展望。【关键词】统计学,数据挖掘,理论体系,质量,基于统计祝角的数据挖掘研究浙江工商大学博士论文
,..瑃.:、甌,簊簍瓸甋簊.、、.浙江工商大学博士论文基于统计视角的数据挖掘研究
:,,,簍,瑃,:...篺篴甌簊—:.、浙江工商大学博士论文基于统计祝角的数据挖掘研究
岫日期:卅年∥月//日日期:眇晟拢独创性声明关于论文使用授权的说明保密的学位论文在解密后也遵守此规定。本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含本人为获得浙江工商大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均己在论文中作了明确的说明并表示谢意。签名:本学位论文作者完全了解浙江工商大学有关保留、使用学位论文的规定:浙江工商大学有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅,可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文,并且本人电子文档的内容和纸质论文的内容相一致。导师签名:
绪论一、选题意义理论意义领域的人对数据挖掘存在不太一致的理解,比较认同的有:数据挖掘指的是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、有效从技术层面讲,数据挖掘集人工智能、统计学、数据库管理、数据仓库、可视化、统计学方法和人工智能分析数据。从目前国内外的研究现状看,从事数据挖掘研究的主要是计算机领域的学者和专家,统计界的学者和专家对数据挖掘的研究较量越来越大,对传统的统计分析技术提出了极大的挑战。笔者认为数据挖掘的出现实意义究以及政府统计等各个领域。例如,、活跃的研究领域。从数据挖掘概念的提出至今,不同的、新颖的、潜在有