文档介绍:科学技术与工程收稿日期: 2011 年4月 22日基金项目: 2010 年北京市优秀人才培养资助,项目编号: 2010D005009000002 ; 专业建设- 特色专业- 信息管理与信息系统项目资助作者简介:赵明茹(1979 年生), 黑龙江人, 讲师, 硕士, 研究方向: 数据挖掘基于线性链表存储结构的 Apriori 改进算法赵明茹郭键孙媛(北京物资学院信息学院,北京市, 101149 ) 摘要: Apriori 是最有影响的挖掘关联规则频繁项集的算法。但是 Apiori 由于需要多次对数据库进行扫描, 所以运行效率比较低。在 Apriori 算法的基础上,本文提出了一种基于线性链表的频繁项集挖掘算法,实验证明该算法能够有效提高执行效率。关键词:数据挖掘;关联规则; Apriori 算法;线性链表中图分类号: TP311 文献标志码:A An Improved Algorithm of Apriori Based on Liner List Zhao Mingru ,Guo Jian ,Sun Yuan ( School of Information , Beijing WuZi University ,Beijing 101149, China ) Abstract: Apriori is the most influential frequent pattern mining algorithm. However, because the Apriori algorithm scans the database many times, so the efficiency of Apriori is relatively low. In this paper, a new Apriori algorithm based on liner list was proposed, the new Apriori algorithm can improved the efficiency of Apriori algorithm by experiment s. Keywords: D ata Mining ; Association Rules ; the algorithm of Apriori ; liner list 引言数据挖掘是从数据库中抽取隐含的、以前未知的、具有潜在应用价值的信息过程。关联规则挖掘发现大量数据中项集之间有趣的关联或相关关系, 关联规则在数据库挖掘中占有非常重要的地位。 Apriori 是关联规则挖掘的经典算法。它是一种挖掘单维、单层、布尔关联规则的算法,由 Rakesh Agrawal Rama 和 krishnan Skrikant 于 1993 年提出的, Apriori 算法采用两阶段挖掘的思想: 第一阶段挖掘频繁项集, 第二阶段挖掘频繁关联规则。第二步较为简单, 如果得到频繁项集, 可以直接推出关联规则。挖掘的重点主要集中在如何快速、高效发现频繁项集。 Apriori 算法的主要不足之处是, 生成了大量的候选频繁项集以及为了验证候选频繁项集是否是频繁项集, 需要反复扫描事务数据库,所以 Apriori 算法效率较低,不能满足大规模数据库的实时挖掘要求[1] 。为了减少扫描数据库的次数, 提高算法的效率,本文研究