文档介绍：基于分布式并行关联规则的挖掘算法
摘要以往使用的分布式数据挖掘算法各有优缺点，提出了一种基于星型网络的分布式关联规则挖掘算法。对其基本思想、算法描述等进行了分析。
【关键词】并行关联规则挖掘算法SDAM算法
在因特网的推动下，分基于分布式并行关联规则的挖掘算法
摘要以往使用的分布式数据挖掘算法各有优缺点，提出了一种基于星型网络的分布式关联规则挖掘算法。对其基本思想、算法描述等进行了分析。
【关键词】并行关联规则挖掘算法SDAM算法
在因特网的推动下，分布式数据库的应用范围越来越广，如超市、银行、图书馆等领域都有所应用。随着数据量的增多，对信息安全要求的提高，数据挖掘技术备受关注，成了当前研究的重点。作为数据挖掘领域的重要组成部分，关联规则可发现不同项之间内在的联系，进而提高更优质的服务。自上世纪90年代被发现后，相关研究日益增多，特别是分布式并行挖掘方面，很多算法相继被提出。其中，FDM 算法得到广泛应用，但尚有缺陷点。为此，提出一种新的算法。
1 SDAM算法
实际中，网络拓扑结构多呈现星型结构，针对FDM算法的不足，对其加以改进，介绍一种基于星型网络的分布式关联规则挖掘算法SDAM算法。SDAM算法是在Aprioi算法的基础上，候选集为1项的项目长度，通过数据库扫描分析，算出局部大项集。接着将此局部大项集发送至中心结点，通过
判断，检查此项集能否满足全局的大项集标准。在项目长度为k的大项集基础上，生成项目长度为k+1的大项集，然后对数据库进行二次分析、扫描，最后确定项目的全部大项集。 SDAM算法与FDM算法不同点是，SDAM算法只需要一个结点的局部大项集，不需要其他结点，SDAM算法的局部结点可以和中心结点进行信息交换。
2 SDAM算法描述
设结点为j (1 WjW n),保证在结点运行算法的基础上完成局部剪枝，具体步骤是：
选出候选集。结点j经过(k-1)次迭代后可以生成强项集，根据计算可生成CGj (k)。
局部剪枝。设置项集是Xi的数据(XiwCGj (k)), 通过扫描数据库中的DBJ,对局部支持度合计数进行计算分析。若Xi在结点i上并非局部最大值，则Xi项集不为局部大项集，应从候选集中删除。
交换信息。将候选集项LLi (k)发送到中心结点，进行信息交换，并且接受源于中心结点的全局大数据项集。
在结点运行算法的基础上完成局部剪枝。设置k次迭代结束后，k的候选数据项集大小是Xo在中心结点接受的数据集内，大小为(k-l)的所有子集进行局部支持度合计数, 用max supi (X)来表示一个结点数据库DBj中所有子集进行局部支持度合计数，即min supi (X) = min{Y. supi且二
k —1 }。所有分支数据库中此类上界函数之和为X. supi的上界，可用 max sup (X) 表不，即：X. sup W max sup (X) =maxsupi (X),可用其进行全局剪枝。从中可知，一旦max sup (X)比6*D小，则数据集X难以达到候选数据集的要求，也就不能成为一个数据集。交换合计数前，要用结点i 对剩余的候选元进行剪枝。X. supi + max supi (X)为候选数据集X的全局支持度合计数上界值。
X. s