1 / 15
文档名称:

大数据挖掘apriori算法.doc

格式:doc   大小:185KB   页数:15页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

大数据挖掘apriori算法.doc

上传人:cxmckate6 2021/12/7 文件大小:185 KB

下载得到文件列表

大数据挖掘apriori算法.doc

相关文档

文档介绍

文档介绍:word
word
1 / 15
word
实 验 报 告
实验课程名称:数据挖掘
实验项目名称: Apriori算法
理 学 院
实验时间: 2014 年 11 月 11 日
学生所在学院:理学院 专业: 统计学 班级:
姓 名
学 号
实验组
实验时间
指导教师
成 绩
实验项目名称
Apriori算法
实验目的与要求:
加强对Apriori算法的理解
锻炼分析问题、解决问题以与动手能力
编程实现Apriori算法
实验〔或算法〕原理:
Apriori算法是一种找频繁项目集的根本算法。其根本原理是逐层搜索的迭代:频繁K项Lk集用于搜索频繁(K+1)项集Lk+1,如此下去,直到不能找到维度更高的频繁项集为止。这种方法依赖连接和剪枝这两步来实现。
算法的第一次遍历仅仅计算每个项目的具体值的数量,以确定大型l项集。随后的遍历,第k次遍历,包括两个阶段。首先,使用在第(k-1)次遍历中找到的大项集Lk-1和用Aprioir-gen函数产生候选项集Ck。接着扫描数据库,计算Ck中候选的支持度。用Hash树可以有效地确定Ck中包含在一个给定的事务t中的候选。算法如下:
(1) L1 = {大项目集1项目集};
(2) for  (k = 2; Lk-1 != 空; k++)  do  begin
(3)  Ck = apriori-gen(Lk-1);      //新的候选集
(4) for  所有事务 t ∈D  do  begin
(5)      Ct = subset ( Ck,t);     //t中所包含的候选 
(6)  for  所有候选 c ∈Ct  do 
(7) ++;
(8) end
(9) Lk = {c ∈Ck |  ≥ minsupp}
(10) end
(11) key = ∪Lk;
Apriori-gen函数:
1]Apriori候选产生函数Apriori-gen的参数Lk-1,即所有大型(k-1)项目集的集合。它返回所有大型k项目集的集合的一个超集(Superset)。首先,在Jion(连接)步骤,我们把Lk-1和Lk-1相连接以获得候选的最终集合的一个超集Ck:
(1) insert  into  Ck
(2) select  p[1],p[2],……,p[k-1],q[k-1]
(3) from  Lk-1p,Lk-1q
(4) where  p[1] = q[1],……,p[k-2] = q[k-2],p[k-1] < q[k-
接着,在Prune(修剪)步骤,我们将删除所有的项目集 c∈Ck,如果c的一些k-1子集不在Lk-1中,为了说明这个产生过程为什么能保持完全性,要注意对于Lk中的任何有最小支持度的项目集,任何大小为k-1的子集也必须有最小支持度。因此,如果我们用所有可能的项目扩大Lk-1中的每个项目集,然后删除所有k-1子集不在Lk-1中的项目集,那么我们就能得到Lk中项目集的一个超集。
上面的合并运算相当于用数据库中所有项目来扩展Lk-1;如果删除扩展项目集的第k-1个项目后得到的k-1项目集不在Lk-1中,如此删除该扩展项目集。条件p[k-1] < q[k-1]保证不会出现一样的扩展项。因此,经过合并运算,Ck>Lk。类似原因在删除运算中,删除Ck中其k-1子项目集不在Lk-1中的项目集,同样没有删除包含在Lk中的项目集。
(1) for  所有项目集c ∈Ck  do
(2)  for  所有c的 (k-1) 子集 s  do 
(3) if (s¢Lk-1)  then
(4) 从Ck中删除c
例如:L3为{{1 2 3},{1 2 4},{1 3 4},{1 3 5},{2 3 4}}。Jion步骤之后,C4为{{1 2 3 4},{1 3 4 5}}。Prune步骤将删除项集{1 3 4 5},因为项集{1 4 5}不在L3中。
Subset函数:
候选项目集Ck存储在一棵Hash树中。Hash树的一个节点包含了项集的一个链表(一个叶节点)或包含了一个Hash表(一个节点)。在节点中,Hash表的每个Bucket都指向另一个节点。Hash树的根的深度定义为1。在深度d的一个节点指向深度d+1的节点。项目集存储在叶子中。要加载一个项目集c时,从根开始向下直到一个叶子。在深度为d的一个节点上,要决定选取哪个分枝,可以对此项目集的第d个项

最近更新

口译 主旨提炼 gist extractionPPT课件 15页

下肢力线主题教育课件PPT课件 12页

2025年杭州万向职业技术学院单招职业倾向性考.. 44页

2025年武汉海事职业学院单招职业倾向性考试题.. 44页

2025年江苏电子信息职业学院单招职业倾向性测.. 44页

2025年江西旅游商贸职业学院单招职业倾向性考.. 45页

2025年沧州幼儿师范高等专科学校单招职业适应.. 44页

2025年河南中医药大学单招职业倾向性考试必刷.. 45页

2025年河源职业技术学院单招职业倾向性测试必.. 45页

2025年浙江国际海运职业技术学院单招职业适应.. 43页

2025年浙江警官职业学院单招职业倾向性考试必.. 43页

2025年温州理工学院单招职业技能考试必刷测试.. 44页

2025年湖南司法警官职业学院单招职业倾向性测.. 45页

2025年湖南艺术职业学院单招职业倾向性考试题.. 43页

2025年潍坊理工学院单招职业适应性考试必刷测.. 43页

2025年班级策划粉色温馨母亲节主题班会全流程.. 29页

纤维外科手术病人的护理 23页

嘉峪关雄关区黄草营项目规划 65页

2025年福建生物工程职业技术学院单招综合素质.. 44页

2025年西南交通大学希望学院单招综合素质考试.. 45页

2025年西安铁路职业技术学院单招职业适应性测.. 43页

2025年贵州城市职业学院单招职业适应性测试必.. 44页

2025年贵州电子商务职业技术学院单招职业倾向.. 45页

2025年辽宁机电职业技术学院单招综合素质考试.. 44页

2025年辽宁省鞍山市单招职业适应性考试必刷测.. 45页

2025年连云港师范高等专科学校单招职业适应性.. 45页

2025年鄂尔多斯职业学院单招职业倾向性测试必.. 45页

2025年重庆市泸州市单招职业适应性测试必刷测.. 45页

中医科常见病诊疗规范 188页

苗木毁坏赔偿协议书范本 3页