1 / 54
文档名称:

关联规则挖掘算法AprioriTid算法的改善与研究.pdf

格式:pdf   页数:54
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

关联规则挖掘算法AprioriTid算法的改善与研究.pdf

上传人:peach1 2014/2/15 文件大小:0 KB

下载得到文件列表

关联规则挖掘算法AprioriTid算法的改善与研究.pdf

文档介绍

文档介绍:河北工业大学
硕士学位论文
关联规则挖掘算法AprioriTid算法的改善与研究
姓名:安娜
申请学位级别:硕士
专业:管理科学与工程
指导教师:吴晓丹
2010-12
河北工业大学硕士论文


关联规则挖掘算法 AprioriTid 算法的改善与研究

摘要

关联规则挖掘技术是数据挖掘领域应用最为广泛的技术之一,本文对关联规则挖掘算
法——AprioriTid算法进行分析,总结出了目前关联规则AprioriTid算法存在的候选Tid
表庞大和存储大量无意义频繁项目集两个主要瓶颈问题。
本文针对上面的两个瓶颈问题提出了一种基于事务压缩、项目压缩,同时可有效修剪
中间产生的频繁项目集的改进方法。通过使用 UCI 标准测试集——Mushroom 测试集对其
进行了多方面的性能测试和比较,由固定置信度下的不同支持度进行测试可知改进后的算
法较原算法在时间效率上提升了 20%-40%,极大的改善了算法的性能。最后,文章将改进
后的算法用在了高校成绩数据库中,通过对高校成绩数据的分析与异常规则的提取,为高
校课程制定提出了一些合理化建议。

关键词:数据挖掘,关联规则,AprioriTid 改进算法,数据预处理











i
关联规则挖掘算法 AprioriTid 算法的改善与研究

RESEARCH AND IMPROVEMENT ON APRIORITID
ALGORITHM OF ASSOCIATION RULES



ABSTRACT


Association rules mining technology is one of the most widely used techniques in data
mining areas, it aims to extract inner and uneasily found links. The paper first introduces the
related theory of association rules mining technology, analyses the exist association rule
algorithm-AprioriTid algorithm, and summarizes the exist two major bottleneck problems of
current association rules mining: (1) For large database, the early formation of candidate Tid
table may be larger than the original transaction database. (2) Every generating Tid table
records many meaningless item sets that cause puter storage burden.
This paper aims at above two bottleneck problems and presents an improvement algorithm
that based on pression and item pression, meanwhile, it presents a
method that can simply and efficiently clip middle produced frequent item sets. Then it uses
simple examples to analysis the theory examine. Secondly, the paper uses UCI standard test
dataset to test pare the improved algorithm performance, the improved algorithm saves
20%-40% time than the original algorithm, it can greatly improve the algorithm performance.
Finally, the improved algorithm is used in the college scores database, through the analysis and
extracting of th