文档介绍:复旦大学
硕士学位论文
基于改进的互关联后继树模型的关联规则挖掘
姓名:李杨
申请学位级别:硕士
专业:计算机软件与理论
指导教师:于玉
20040520
摘要关键词:本文在分析了在频繁模式挖掘领域经典的阰算法、.算法与基它有其独特的优点:只需要扫描一遍事务库;频繁项的挖掘只局部关联于一棵根当前,数据挖掘是数据库研究、开发和应用最活跃的分支之⋯,;鹆搜界和产业界的广泛关注。而其中关联规则挖掘在商业等领域的成功应,使其成为数据挖掘中最成熟、最重要、最活跃的研究内容。而频繁模式的挖掘是关联规十互关联后继树的算法的基础攵云捣蹦J酵诰虻奶氐愣曰ス亓:蠹树模型进行了一定的改进,提出了间接红关联后继树簇模型,并提出的频繁模式挖掘算法。,可以发现间接互关联后继树簇模型在频繁项集挖掘任务中在保留了原有算法的优点的同时,又在效率上比原有算法取得了很大项集,直接构造频繁项集的方法,并都充分利用性质来提高挖掘效率。树,内存需求小;算法简单容易理解;对的更新操作简单易行。同时模型也是一种索引事务库的通用模型,具有高效支持事务查询的能力。关联规则频繁项集惴‵甮惴则挖掘的基本步骤。了基于的进步,与—算法相当。算法和前两者~样都采用无需产生候选互关联后继树间接互关联后继树簇琁,摘要
:.,,,瑆琲琤;.,.;,琩瓸瑆.—琲痶篿.
第一章绪论研究背景介绍电子数据处理的初期,人们就试图通过某些方法来实现自动决策支持,当时论的指导下,重新回到机器学习的方法上,并将其成果应用于处理大型商业数据丌的第届国际人工智能联合会议的专题讨论会上首次出现飧鍪跤铩在过去的数十年中,人们产生和收集数据的能力已经迅速提高。起作用的因算机化,以及由文本和图像扫描平台到卫星遥感系统的数据收集工具的进步。此大海中。面对信息社会中数据和数据库的爆炸式增长,人们分析数据和从中提取有用信息的能力,远远不能满足实际需要。缺乏挖掘数据背后隐藏的知识的手段,导致了“数据丰富,但信息贫乏”的现象。虽然目前的数据库系统可以高效地实现数据的录入、查询、统计和维护等功能,。所以,迫切需要一种能够自动地把数据转换成有用信息和知决的问题作为范例输入计算机,机器通过学习这些范例总结并生成相应的规则,术的形成和发展,人们的注意力转向知识工程,知识丁程不同于机器学习那样给而计算机是通过使用这些规则来解决某些问题。专家系统就是这种方法所得到的成果,但它有投资大、效果不甚理想等不足。年代人们又在新的神经网络理需求是发展之母。用数据库管理系统来存储数据,用机器学习的方法来分析数据,挖掘大量数据背后的知识,这两者的结合促成了数据库中的知识发现的产生。年略诿拦滋芈烧数据库中的知识发现是一门交叉性学科,涉及到机器学习、模式识别、统计学、智能数据库、知识获取、数据可视化、高性能计算、专家系统等多个领域。从数据库中发现出来的知识可以用在信息管理、过程控制、科学研究、决策支持等许素包括条形码在大部分商业产品中的广泛应用,许多商务、科学和行政事务的计外,作为全球信息系统的牧餍校丫嗣茄兔辉谑莺托畔⒌耐粞识的技术和摺机器学习成为人们关心的焦点。机器学习的过程就是将一些已知的并已被成功解这些规则具有通用性,使用它们可以解决某一类的问题。随后,随着神经网络技计算机输入范例,让它生成出规则,而是直接给计算机输入己被代码化的规则,库。多方面。:第章绪论
.萃诰——海量数据搜集——强大的多处理器计算机——数据挖掘算法进而发展到对数据库的即时遍历。数据挖掘使数据库技术进入了联系,从而促进信息的传递。现在数据挖掘技术在商业应用巾已经可以马上投入商业数据库现在正在以一个空前的速度增长,并且数据仓库正在广泛地应用会议提出了数据挖掘概念,它形象地把大型数据库看成是存放有数据挖掘是凶詈牟糠郑遣捎没餮啊⑼臣频确椒ń兄J学习的阶段。数据挖掘算法的好坏将直接影响到所发现知识的好坏。目前大多数的研究都集中在数据挖掘算法和应用上。人们往往不严格区分数据挖掘和数据库中的知识发现,把两者混淆使用。一般在科研领域中称为诠こ塘煊则称为数据挖掘。数据挖掘技术是人们长期对数据库技术进行研究和开发的结果。起初各种商个更高级的阶段,它不仅能对过去的数据进行查询和遍历,并且能够找出过去数据之间的潜在使用,因为对这种技术进行支持的三种基础技术已经发展成熟,它们是:于各种行业:对计算机硬件性能越来越高的要求,也可以用现在已经成熟的并行多处理机的技术来满足;另外数据挖掘算法经过了这多年的发展也已经成为从商业数据到商业信息的进化过程中,每一步前进都是建立在上一步的基础上的,见表。从表中我们可以看到,第四步进化是革命性的,因为从用户的角度来看