1 / 4
文档名称:

云计算环境下关联规则数据挖掘算法研究.pdf

格式:pdf   大小:963KB   页数:4页
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

云计算环境下关联规则数据挖掘算法研究.pdf

上传人:q1188830 2022/2/28 文件大小:963 KB

下载得到文件列表

云计算环境下关联规则数据挖掘算法研究.pdf

相关文档

文档介绍

文档介绍:第 !" 卷第 ## 期 重庆工商大学学报!自然科学版" !@#! 年 ## 月
(((((((( 4模式
\;U n]4?754最早由 a%%0&4公司提出#是一种有效的分布式并行计算框架#可用于大规模数据集的并行
运算#为海量数据的计算分析提供一种可行方案. 在 \;U n]4?754模型中#数据处理原语被称为 \;UU4P和
]4?754P. 分解一个数据处理应用为 \;UU4P和 ]4?754P有时是繁琐的#但是一旦以 \;U n]4?754的形式写好
了一个应用程序#仅需修改配置就可以将它扩展到集群中几百'几千#甚至几万台机器上运行. \;U n]4?754
的执行流程主要包括 \;U 和 P4?754两个阶段#具体为)
在 \;U 阶段#\;U n]4?754框架将输人数据拆分为大量的数据片段#并将每一个数据片段分配给一个
\;U 任务. 每一个 \;U 任务会将对其分配到的 c4`N$;&74对进行计算#生成一个中间结果#然后将中间结果
中所有具有相同 c4`值的 $;&74经过计算后传递给 ]4?754函数.
在 ]4?754阶段#每一个 ]4?754任务会将分配到的二元组 c4`N$;&74集合的片段作为输入. 对于每一个
这样的二元组都会调用一个用户定义的 ]4?754函数将 $;&74值合并#形成一个较小的 $;&74的集合#每次
]4?754函数调用只产生 @ 或 # 个 $;&74值输出.
每个阶段的任务执行都是支持容错的#如果任一个或多个节点在计算过程中出现错误都会将任务自动
重新分配到其他节点. 同时运行多个 \;U 和 ]4?754任务提供了很好的负载均衡并且保证了运行中失败的
任务被重新运行的代价降到尽可能的小.
!(基于 ^;?%%U 的关联规则数据挖掘算法
!+#(算法分析
关联规则!O88%52;<2%/ ]7&48"挖掘就是从大量的数据中挖掘出有价值描述数据项之间相互联系的有关
知识#是数据挖掘领域研究的一个重要内容. 关联规则挖掘的代表算法是 OUP2%P2算法#在 OUP2%P2算法基础
上#结合并行算法思想#人们提出了 -I!-%7/<I28<P2T7<2%/#简称 -I"算法#算法的思想是在每一个处理机上
都存储全局的候选项目集和频繁项目集#每一步计算时利用 OUP2%P2算法计算出候选集在本地数据上的支持
数#然后做一次同步#各处理杌