1 / 18
文档名称:

数据挖掘实验报告.docx

格式:docx   大小:390KB   页数:18页
下载后只包含 1 个 DOCX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

数据挖掘实验报告.docx

上传人:小博士 2022/6/20 文件大小:390 KB

下载得到文件列表

数据挖掘实验报告.docx

文档介绍

文档介绍:学生学号
0120810680330
实验课成绩
武汉理工大学
实验课程名称
开课学院 指导老师姓名 学生姓名 学生专业班级
学生实验报告书
数据挖掘
计算机科学与技术学院

赵倩
软件0803班
20很好地满足高校老师和学生对 学生成绩信息进行快速查询以及分析的需要,为更多其他主题数据仓库的建立奠定了基础。 然而各主题数据仓库的建立,只是一个开始,我们下一步工作将是在建立好的数据仓库基础上 进行数据挖掘,进一步去发现隐藏在这些学生成绩信息数据中更加有用的知识、规律和模式, 使之为学校学生成绩分析工作服务。
将数据仓库技术应用到学生信息管理中,使我了解了数据仓库的应用以及如何创建数据仓 库。
实验课程名称:数据挖掘
实验项目名称
Apriori 算法
实验成绩
实验者 赵倩 专业班级 软件0803班 组别
同组者 实验日期 2011年5月26 口
第一部分:实验分析与设计
一、 实验内容描述(问题域描述)
此实验为综合型实验,要求学生综合利用先修课程高级程序设计语言、数据库、算法设计 与分析,与本门数据挖掘课程的知识,选择一种编程工具,如Visual C++,实现经典挖掘算 法 Apriori 或算法 k-Means。
二、 实验基本原理与设计(包括实验方案设计,实验手段的确定,试验步骤等,用硬件逻辑或 者算法描述)
Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法。算法基于这样的事实: 算法使用频繁项集性质的先验知识。Apriori使用一种称作逐层搜索的迭代方法,么-项集用于 探索(奸1)-项集。首先,找出频繁1-项集的集合。该集合记作Z1。庭用于找频繁2-项集的 集合Z2,而班用于找Z3,如此下去,直到不能找到频繁奸项集。找每个以需要一次数据库 扫描。
为了提高频繁项目集逐层产生的效率,Apriori算法利用了两个重要的性质用于压缩搜索空间:
若X是频繁项集,则x的所有子集都是频繁项集。
若x是非频繁项集,则X的所有超集都是非频繁项集。
2. 2算法描述:
算法:Apriori算法,使用逐层迭代找出频繁项集。
输入:事务数据库D;最小支持度阈值min_sup„
输出:D中的频繁项集L。
LI = find_frequent_l_itemsets (D);
for (k = 2; Lk~l 丰;k++) {
Ck = aproiri_gen (LkT, min_sup);
for each transaction t D( //scan D for count
Ct 二 subset (Ck, t); //get subsets of t that are candidates
for each candidate c Ct
c. count++;
}
Lk={c Ck | c. count N min_sup}
}
return L = U kLk;
从事务数据库D中挖掘出所有频繁项集。支持度大于最小支持度min_sup的项集Itemset 称为频集Frequent Itemseto首先需要挖掘出频繁1 -项集;然后,继续采用递推的方式来挖 掘频繁k-项集(k>l),具体做法是:
在挖掘出候选频繁k-项集(Ck)之后,根据最小置信度minSup来筛选,得到频繁k-项集。 最后合并全部的频繁k-项集(k>0)o 挖掘频繁项集的算法描述如下:
LI = find_frequent_l-itemsets (D) ; // 挖掘频繁 1 -项集,比较容易
for (k=2;Lk-1 乂中;k++) {
Ck = apriori_gen(Lk-l , min_sup) ; // 调用 apriori_gen 方法生成候选频繁 k-项集
for each transaction t D ( // 扫描事务数据库 D
Ct = subset(Ck, t);
for each candidate c £ Ct
(7)
++; //
统计候选频繁k-项集的计数
(8)
}
(9) 项集
Lk ={c £ Ck c. count Nmin_sup}
//满足最小支持度的k-项集即为频繁k-
(10)
}
(11)
return L= U k Lk; //合并频繁k-项集
(k>0)
基于第1步挖掘到的频繁项集,继续挖掘出全部的频繁关联规则。置信度大于给定最小置 信度minConf的关联规则称为频繁关联规则Frequent Association Rule0在这一步,首先需 要从频繁项集入手,首先挖掘出全部的关联规则(或者称候选关联规则),然后根据minConf

最近更新

2024年山东省日照市行政职业能力测验题库(基.. 149页

2024年山东省潍坊市行政职业能力测验题库(模.. 147页

2024年广西玉林市事业单位事业单位招聘1039人.. 89页

2024年广西玉林陆川县事业单位招聘12人历年高.. 87页

2024年广西百色市土地复垦整治中心招聘4人历年.. 88页

2024年广西百色市田阳县统计局招聘3人历年高频.. 90页

2024年广西省南宁市扶贫办公室事业单位招聘历.. 88页

2024年广西贵港桂平市土地管理技术服务站招聘.. 89页

2024年广西钦州市市直事业单位招聘226人历年高.. 88页

2024年江西青年职业学院单招职业适应性测试题.. 57页

2024年泉州经贸职业技术学院单招职业适应性测.. 57页

2024年淮北职业技术学院单招职业适应性测试题.. 59页

2024年滁州职业技术学院单招职业适应性测试题.. 56页

2024年辽宁省丹东市行政职业能力测验题库及参.. 147页

2024年辽宁省盘锦市行政职业能力测验题库必考.. 149页

2024年辽宁省阜新市行政职业能力测验题库及答.. 147页

2024年郴州职业技术学院单招职业适应性测试题.. 60页

2024年黑龙江省哈尔滨市行政职业能力测验题库.. 146页

2024年黑龙江省鹤岗市行政职业能力测验题库及.. 147页

云南省丽江地区选调生考试(行政职业能力测验.. 147页

公共基础知识安徽省宿州市选调生考试(行政职.. 147页

广场舞大赛策划方案范文 12页

【课程思政优秀案例】《国际商法》课程 7页

广场舞大赛活动方案 3页

2023年司法考试真题民法 11页

我的美艳警察妈妈 2页

三年级下册数学第三单元单元分析《两位数乘两.. 3页

开源节流降本增效活动方案财务核算降本增效开.. 12页

小学三年级数学培优补差计划 3页

扇形段积渣引发的各类事故分析 3页