文档介绍:厦门大学
博士学位论文
数据挖掘中的聚类方法及其应用——基于统计学视角的研究
姓名:殷瑞飞
申请学位级别:博士
专业:统计学
指导教师:朱建平
20080401
摘要行合理归类的一种方法。作为数据挖掘的一项重要功能,聚类分析能作为一个独挖掘中主要的聚类方法及其研究进展进行了综述,并从聚类标准、类的标识、聚数据挖掘是近几年随着数据库和人工智能发展起来的一门新兴技术,它从大量原始数据中发掘出隐含的、有用的信息和知识,帮助决策者寻找数据间潜在的关联,发现被忽略的因素。数据挖掘因其巨大的商业前景,现已成为国际上数据库和信息决策领域最前沿的研究方向之一,并引起了学术界和工业界的广泛关注。面对海量数据,首要的任务就是对其进行归类,聚类分析就是对原始数据进立的工具来获得数据的分布情况,观察每个类的特点,集中对特定的某些类做进一步的分析。此外,聚类分析也可以作为其它算法的预处理步骤。因此,聚类分析已经成为数据挖掘领域中一个非常活跃的研究课题。数据挖掘的相关文献中已经存在大量的聚类方法。然而,从目前来看,对数据挖掘中聚类方法的研究大都集中于计算机科学领域,更多注重聚类算法的研究,或者对现有聚类方法进行算法上的改进,而很少真正从统计学角度出发对数据挖掘中的聚类问题进行深入分析。本文尝试从统计学视角出发,以统计理论为基础,以统计方法与算法的结合为基本思路,将一些现有的优秀统计方法,如因子分析、对应分析、函数型数据分析等引入数据挖掘领域,使其能够应用于海量数据的聚类分析。本文共分为六章,各章的内容安排如下:第陆樯芰吮疚牡难√獗尘啊⒀芯磕谌菀约氨疚牡闹饕4葱轮Α第率紫燃虻ゲ隽耸萃诰虻亩ㄒ濉⒐δ芎统S眉际酰缓蠖缘鼻笆类算法框架三个角度对各种聚类方法进行了全面而深入的对比与总结。第峦ü跃銺型因子模型进行改进,克服了其算法效率上的困难,提出了一种新的海量数据聚类方法——鸵蜃泳劾喾ǎ⒔涑晒ττ糜谏鲜公司板块分析,为投资决策提供帮助。第禄贐杂Ψ治龅幕舅悸罚岷螿型因子分析的思想,提出了数据挖掘中的对应分析聚类法。利用对应分析聚类法对移动通讯月度消费大
了一种新的海量数据聚类方法——“鸵蜃泳劾喾。型数据库进行聚类分析,实现了移动通讯消费市场的细分。第陆柚褪莘治龅幕舅枷牒头椒ǎ⒘艘桓鍪毙蚴菘饩劾第露匀牡闹饕9ぷ鹘辛俗芙幔⒅赋隽吮疚牡牟蛔阒σ约敖徊算法效率方面的问题,也解决了传统对应分析法中缺乏客观分类标准、信息损失分析的一般框架,并将这一方法扩展到多变量的情形,解决了多变量时序数据的聚类问题。将该方法应用到投资组合风险管理中,利用聚类结果进行资产选择,有效地降低了组合投资风险。研究的方向。本文尝试在以下几个方面有所创新:ü跃銺型因子模型进行改进,克服了其算法效率上的困难,提出岢隽耸萃诰蛑械摹岸杂Ψ治鼍劾喾。该方法既解决了鸵蜃臃治严重等多种缺陷。诙杂Ψ治鼍劾喾ǖ奶岢龉讨校乖炝硕杂Ψ治鲋械谋曜蓟蜃釉睾阵,给出了对应分析中因子得分的求解方法,并首次将因子旋转引入对应分析中,在一定程度上扩展了对应分析的方法和理论体系。柚褪莘治龅幕舅枷牒头椒ǎ⒘艘桓鍪毙蚴菘饩劾喾析的一般框架,在这个框架之下,大量传统的静态聚类方法都可以被应用到时序数据聚类当中。关键词:数据挖掘;聚类分析;统计方法
:,陊铲畆,也騦.’鏻.,琫,阰琣.,甌,.,、Ⅳ,.,琧鄀、:,行:產猻甤
鑑巧,砌啪鸪鷈、Ⅳ锄髊綽咖““椭鉶齝舢猰印印,甒甌印餷乏嘶印;,组.,、Ⅳ,锄如。ⅱ,甧】鎟瓸,盯.,甀,ⅱ
融舻俨苫年‘月/日厦门大学学位论文原创性声明兹呈交的学位论文,是本人在导师指导下独立完成的研究成果。本人在论文写作中参考的其他个人或集体的研究成果,均在文中以明确方式标明。本人依法享有和承担由此论文产生的权利和责任。声明人┟:
痔雹事耻奶日期:琾缉万月/日厦门大学学位论文著作权使用声明日期:伽彤年∥月⒉槐C√本人完全了解厦门大学有关保留、使用学位论文的规定。厦门大学有权保留并向国家主管部门或其指定机构送交论文的纸质版和电子版,有权将学位论文用于非赢利目的的少量复制并允许论文进入学校图书馆被查阅,有权将学位论文的内容编入有关数据库进行检索,有权将学位论文的标题和摘要汇编出版。保密的学位论文在解密后适用本规定。本学位论文属于⒈C年解密后适用本授权书。朐谝陨舷嘤ê拍诖颉啊獭作者签名:导师签名:/
第绪论选题背景与研究意义世纪年代以来,随着信息技术和数据库技术的迅猛发展,人们能够关联,发现被忽略的因素。数据挖掘因其巨大的商业前景,现已成为国际上数据泛,在商务中,聚类分析能够帮助市场分析人员从客户基本库中发现不同的客户聚类分析还能通过对甧牡到蟹掷嗬椿袢⌒畔