文档介绍:基于分布式并行关联规则的挖掘算法
摘要以往使用的分布式数据挖掘算法各有优缺 点,提出了一种基于星型网络的分布式关联规则挖掘算法。 对其基本思想、算法描述等进行了分析。
【关键词】并行关联规则 挖掘算法SDAM算法
在因特网的推动下,分基于分布式并行关联规则的挖掘算法
摘要以往使用的分布式数据挖掘算法各有优缺 点,提出了一种基于星型网络的分布式关联规则挖掘算法。 对其基本思想、算法描述等进行了分析。
【关键词】并行关联规则 挖掘算法SDAM算法
在因特网的推动下,分布式数据库的应用范围越来越 广,如超市、银行、图书馆等领域都有所应用。随着数据量 的增多,对信息安全要求的提高,数据挖掘技术备受关注, 成了当前研究的重点。作为数据挖掘领域的重要组成部分, 关联规则可发现不同项之间内在的联系,进而提高更优质的 服务。自上世纪90年代被发现后,相关研究日益增多,特 别是分布式并行挖掘方面,很多算法相继被提出。其中,FDM 算法得到广泛应用,但尚有缺陷点。为此,提出一种新的算 法。
1 SDAM算法
实际中,网络拓扑结构多呈现星型结构,针对FDM算法 的不足,对其加以改进,介绍一种基于星型网络的分布式关 联规则挖掘算法SDAM算法。SDAM算法是在Aprioi算法的基 础上,候选集为1项的项目长度,通过数据库扫描分析,算 出局部大项集。接着将此局部大项集发送至中心结点,通过
判断,检查此项集能否满足全局的大项集标准。在项目长度 为k的大项集基础上,生成项目长度为k+1的大项集,然后 对数据库进行二次分析、扫描,最后确定项目的全部大项集。 SDAM算法与FDM算法不同点是,SDAM算法只需要一个结点 的局部大项集,不需要其他结点,SDAM算法的局部结点可以 和中心结点进行信息交换。
2 SDAM算法描述
设结点为j (1 WjW n),保证在结点运行算法的基础 上完成局部剪枝,具体步骤是:
选出候选集。结点j经过(k-1)次迭代后可以 生成强项集,根据计算可生成CGj (k)。
局部剪枝。设置项集是Xi的数据(XiwCGj (k)), 通过扫描数据库中的DBJ,对局部支持度合计数进行计算分 析。若Xi在结点i上并非局部最大值,则Xi项集不为局部 大项集,应从候选集中删除。
交换信息。将候选集项LLi (k)发送到中心结点, 进行信息交换,并且接受源于中心结点的全局大数据项集。
在结点运行算法的基础上完成局部剪枝。设置k次迭代 结束后,k的候选数据项集大小是Xo在中心结点接受的数 据集内,大小为(k-l)的所有子集进行局部支持度合计数, 用max supi (X)来表示一个结点数据库DBj中所有子集进 行局部支持度合计数,即min supi (X) = min{Y. supi且二
k —1 }。所有分支数据库中此类上界函数之和为X. supi的 上界,可用 max sup (X) 表不,即:X. sup W max sup (X) =maxsupi (X),可用其进行全局剪枝。从中可知,一旦max sup (X)比6*D小,则数据集X难以达到候选数据集的要 求,也就不能成为一个数据集。交换合计数前,要用结点i 对剩余的候选元进行剪枝。X. supi + max supi (X)为候 选数据集X的全局支持度合计数上界值。
X. s