文档介绍:2020/3/5数据挖掘中的统计方法及其实践朱建平厦门大学经济学院计划统计系2020/3/5TheStatisticalMethodforDataMiningandItsApplicationZhuJianpingXiamenUniversity2020/3/5教学目的数据挖掘(DataMining)就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。它是涉及机器学习、模式识别、统计学、人工智能、数据库管理及数据可视化等学科的边缘学科。用统计的观点看,它可以看成是通过计算机对大量的复杂数据集的自动探索性分析。作为一种独立于应用的技术,一经出现立即受到广泛的关注。本课程从统计学的角度介绍该领域的全面情况,讲授有趣的数据挖掘技术和方法,并讨论应用和研究方向。其目的是针对海量数据,让我们掌握利用计算机分析数据、理解数据,并具有基于丰富的数据做出决策的能力。2020/3/和各种局域网的广泛普及,人们获得的数据正以前所未有的速度急剧增加,最近几十年产生了很多超大型数据库,遍及超级市场销售、银行存款、天文学、粒子物理、化学、医学以及政府统计等领域。那么,如何从这些大型数据库中发现有用的信息、模式和知识?如何开发有效的挖掘方法?已成为众多科技工作者共同关注的焦点。在过去几年,一个称为“数据挖掘”(DataMining)的新领域得到了快速发展,已在经济、商业、金融、天文等行业得到了成功的应用,在国际上掀起了一股空前的研究热潮。2020/3/5本课程从统计学的观点出发,立足理论,着眼应用,在明确了数据挖掘定义和对象的基础上,从七个方面对数据挖掘的理论及统计方法和应用进行较为详细的介绍。第一章介绍数据挖掘概况。讲授数据挖掘的定义,并以技术和商业的角度给出了数据挖掘的定义。在此基础上,澄清数据挖掘与知识发现的关系,明确数据挖掘的对象。最后对数据分析提出一些思考。第二章数据挖掘与统计学的关系。以数据挖掘的发展历史为线索,讲授数据挖掘领域研究所取得成果,解释数据挖掘自身的特点,从中领悟到了数据挖掘与统计学的关系。以现代统计方法的基本思想,让学生认识到统计学在数据挖掘中所做的贡献,即统计方法在数据挖掘中强有力的作用。2020/3/5第三章介绍数据准备。在这一章将分析原始大型数据库的基本表述和特征,了解数据准备的不同技术,比较去除丢失值的不同方法,构造时间相关数据的统一表述方法,实现一些数据预处理技术。第四章介绍Rough集的基本模型及有关概念。这一章讲授知识的分类观点和概念的边界观点,知识的约简和决策表的约简。以统计思想与Rough集理论相结合,介绍对事务性数据库的统计描述,对事务性数据库事务项及属性项压缩的方法,构建事务性数据库列联表示的模型的思想。并利用所介绍的方法进行实证分析。第五章重点介绍数据挖掘中的聚类问题。讲授数据的排序与有向聚类问题。介绍聚类分析数据类型衍生的思想,并对聚类分析方法进行了比较和检验。让学生在实际应用中认识到其方法的可靠性与稳定性。2020/3/5第六章介绍挖掘大型数据库中的关联规则。讲授关联规则的意义和量度,维布尔关联规则,多层关联规则,由关联规则到相关分析。另外,引入相应分析作为数据挖掘中关联规则的提升,介绍相应分析适应性检验的基本思想及方法,及相应分析适应性的分层量度方法。利用可视化方法对所多度相应分析方法进行了验证。第七章理解一些其它的数据挖掘技术。模糊聚类、神经网络、时序稠密数据集的挖掘技术等。为了满足实际的需要,我们将利用所讲授的方法,对某地区中国移动通讯用户消费数据库、某大学大学生隐形教育调查资料和上证指数收盘价信息进行剖析,以便让学生充分地领悟到数据挖掘的理论和实际价值。2020/3/5参考文献Cios,.,Pedrycz,,.(1998),DataMiningMethodsforKnowledgeDiscovery,,.,DataMiningandStatistics:What’sTheConnection?TechnicalReport,StanfordUniversityGlymour,C.,,DataMiningandKnowledgeDiscovery1,11-28(1997)Han,,:ConceptsandTechniques,HigherEducationPress,(2001)Theresa,B.,Frederick,,A.,Information-TheoreticMeasures