1 / 4
文档名称:

数据挖掘计算题参考答案.doc

格式:doc   大小:110KB   页数:4页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

数据挖掘计算题参考答案.doc

上传人:tmm958758 2017/6/18 文件大小:110 KB

下载得到文件列表

数据挖掘计算题参考答案.doc

文档介绍

文档介绍:1 数据仓库与数据挖掘复****题 1. 假设数据挖掘的任务是将如下的 8 个点(用( x,y )代表位置)聚类为 3 个类: X1(2,10) 、 X2(2,5) 、 X3(8,4) 、 X4(5,8) 、 X5(7,5) 、 X6(6,4) 、 X7(1,2) 、 X8(4,9) ,距离选择欧几里德距离。假设初始选择 X1(2,10) 、 X4(5,8) 、 X7(1,2) 为每个聚类的中心,请用 K_means 算法来计算: (1)在第一次循环执行后的 3个聚类中心; 答:第一次迭代:中心点 1: X1(2 ,10) ,2: X4(5 ,8), X7(1 ,2) X1 X2 X3 X4 X5 X6 X7 X8 10 25 36+36 9+4 25+25 16+36 1+64 4+1 2 9+4 9+9 9+16 0 4+9 1+16 16+36 1+1 3 1+64 1+9 53 16+36 45 290 58 答案:在第一次循环执行后的 3 个聚类中心: 1: X1(2 , 10) 2: X3 , X4 , X5 , X6 , X8 ( 6, 6) 3: X2 , X7 ( , ) (2)经过两次循环后,最后的 3个族分别是什么? 第二次迭代: d² X1 X2 X3 X4 X5 X6 X7 X8 10 25 36+36 9+4 25+25 16+36 1+64 4+1 2 32 178524 41 1+1 35² + ²5² + ² ² + ² ² + ² ² + ² ² + ² ² + ² ² + ² 答案: 1: X1 , X8 ( ,) 2: X3 , X4 , X5 , X6 ( , ) 3: X2 , X7 ( , ) 4个事务。设 min_sup=60%,min_conf=80% 。 TID data Transaction T100 6/6/2007 K,A,D,B T200 6/6/2007 D,A,C,E,B T300 6/7/2007 C,A,B,E T400 6/10/2007 B,A,D Apriori 算法找出频繁项集,并写出具体过程。答: (a) Apriori 算法: 2 {K} 1 {A} 4 {A,B} 4 {A,B,D} 3 {A} 4 {B} 4 {A,D} 3 {B} 4 {D} 3 {B,D} 3 {D} 3 {C} 2 {E} 2 频繁项集为 3项集{A,B,D}:3 ,使它们与下面的元规则匹配,其中,X是代表顾客的变量, i item 是表示项的变量(例如,“ A”、“ B”等): 1 2 3 , ( , ) ( , ) ( , ) x transaction buys X item buys X item buys X item  [s,c] 答:所有频繁子项集有{A},{B},{D},{A,B},{A,D},{B,D} A^B=>D conf=3/4=75% × A^D=>B conf=3/3=100% √ B^D=>A