1 / 18
文档名称:

数据挖掘实验报告.docx

格式:docx   大小:390KB   页数:18页
下载后只包含 1 个 DOCX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

数据挖掘实验报告.docx

上传人:小博士 2022/6/20 文件大小:390 KB

下载得到文件列表

数据挖掘实验报告.docx

文档介绍

文档介绍:学生学号
0120810680330
实验课成绩
武汉理工大学
实验课程名称
开课学院 指导老师姓名 学生姓名 学生专业班级
学生实验报告书
数据挖掘
计算机科学与技术学院

赵倩
软件0803班
20很好地满足高校老师和学生对 学生成绩信息进行快速查询以及分析的需要,为更多其他主题数据仓库的建立奠定了基础。 然而各主题数据仓库的建立,只是一个开始,我们下一步工作将是在建立好的数据仓库基础上 进行数据挖掘,进一步去发现隐藏在这些学生成绩信息数据中更加有用的知识、规律和模式, 使之为学校学生成绩分析工作服务。
将数据仓库技术应用到学生信息管理中,使我了解了数据仓库的应用以及如何创建数据仓 库。
实验课程名称:数据挖掘
实验项目名称
Apriori 算法
实验成绩
实验者 赵倩 专业班级 软件0803班 组别
同组者 实验日期 2011年5月26 口
第一部分:实验分析与设计
一、 实验内容描述(问题域描述)
此实验为综合型实验,要求学生综合利用先修课程高级程序设计语言、数据库、算法设计 与分析,与本门数据挖掘课程的知识,选择一种编程工具,如Visual C++,实现经典挖掘算 法 Apriori 或算法 k-Means。
二、 实验基本原理与设计(包括实验方案设计,实验手段的确定,试验步骤等,用硬件逻辑或 者算法描述)
Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法。算法基于这样的事实: 算法使用频繁项集性质的先验知识。Apriori使用一种称作逐层搜索的迭代方法,么-项集用于 探索(奸1)-项集。首先,找出频繁1-项集的集合。该集合记作Z1。庭用于找频繁2-项集的 集合Z2,而班用于找Z3,如此下去,直到不能找到频繁奸项集。找每个以需要一次数据库 扫描。
为了提高频繁项目集逐层产生的效率,Apriori算法利用了两个重要的性质用于压缩搜索空间:
若X是频繁项集,则x的所有子集都是频繁项集。
若x是非频繁项集,则X的所有超集都是非频繁项集。
2. 2算法描述:
算法:Apriori算法,使用逐层迭代找出频繁项集。
输入:事务数据库D;最小支持度阈值min_sup„
输出:D中的频繁项集L。
LI = find_frequent_l_itemsets (D);
for (k = 2; Lk~l 丰;k++) {
Ck = aproiri_gen (LkT, min_sup);
for each transaction t D( //scan D for count
Ct 二 subset (Ck, t); //get subsets of t that are candidates
for each candidate c Ct
c. count++;
}
Lk={c Ck | c. count N min_sup}
}
return L = U kLk;
从事务数据库D中挖掘出所有频繁项集。支持度大于最小支持度min_sup的项集Itemset 称为频集Frequent Itemseto首先需要挖掘出频繁1 -项集;然后,继续采用递推的方式来挖 掘频繁k-项集(k>l),具体做法是:
在挖掘出候选频繁k-项集(Ck)之后,根据最小置信度minSup来筛选,得到频繁k-项集。 最后合并全部的频繁k-项集(k>0)o 挖掘频繁项集的算法描述如下:
LI = find_frequent_l-itemsets (D) ; // 挖掘频繁 1 -项集,比较容易
for (k=2;Lk-1 乂中;k++) {
Ck = apriori_gen(Lk-l , min_sup) ; // 调用 apriori_gen 方法生成候选频繁 k-项集
for each transaction t D ( // 扫描事务数据库 D
Ct = subset(Ck, t);
for each candidate c £ Ct
(7)
++; //
统计候选频繁k-项集的计数
(8)
}
(9) 项集
Lk ={c £ Ck c. count Nmin_sup}
//满足最小支持度的k-项集即为频繁k-
(10)
}
(11)
return L= U k Lk; //合并频繁k-项集
(k>0)
基于第1步挖掘到的频繁项集,继续挖掘出全部的频繁关联规则。置信度大于给定最小置 信度minConf的关联规则称为频繁关联规则Frequent Association Rule0在这一步,首先需 要从频繁项集入手,首先挖掘出全部的关联规则(或者称候选关联规则),然后根据minConf