1 / 14
文档名称:

数据挖掘复习题和答案.doc

格式:doc   大小:6,194KB   页数:14页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

数据挖掘复习题和答案.doc

上传人:2890135236 2019/5/11 文件大小:6.05 MB

下载得到文件列表

数据挖掘复习题和答案.doc

文档介绍

文档介绍:一、考虑表中二元分类问题的训练样本集整个训练样本集关于类属性的熵是多少?关于这些训练集中a1,a2的信息增益是多少?对于连续属性a3,计算所有可能的划分的信息增益。根据信息增益,a1,a2,a3哪个是最佳划分?根据分类错误率,a1,a2哪具最佳?根据gini指标,a1,a2哪个最佳?(+)=4/9andP(-)=5/9-4/9log2(4/9)-5/9log2(5/9)=:(估计不考)答3:2/14答4:Accordingtoinformationgain,:Forattributea1:errorrate=2/:errorrate=4/,accordingtoerrorrate,:4/14二、考虑如下二元分类问题的数据集5/,,决策树归纳会用哪个属性?这个答案没问题6/14从图4-13可以看出熵和gini指标在[0,]都是单调递增,而[,1]之间单调递减。有没有可能信息增益和gini指标增益支持不同的属性?解释你的理由Yes,eventhoughthesemeasureshavesimilarrangeandmonotonousbehavior,theirrespectivegains,Δ,whicharescaleddifferencesofthemeasures,donotnecessarilybehaveinthesameway,asillustratedbytheresultsinparts(a)and(b).贝叶斯分类7/14P(A=1|-)=2/5=,P(B=1|-)=2/5=,P(C=1|-)=1,P(A=0|-)=3/5=,P(B=0|-)=3/5=,P(C=0|-)=0;P(A=1|+)=3/5=,P(B=1|+)=1/5=,P(C=1|+)=2/5=,P(A=0|+)=2/5=,P(B=0|+)=4/5=,P(C=0|+)=3/5=(A=0|+)=(2+2)/(5+4)=4/9,P(A=0|-)=(3+2)/(5+4)=5/9,P(B=1|+)=(1+2)/(5+4)=3/9,P(B=1|-)=(2+2)/(5+4)=4/9,P(C=0|+)=(3+2)/(5+4)=5/9,P(C=0|-)=(0+2)/(5+4)=2/(A=0,B=1,C=0)=K8/14当的条件概率之一是零,则估计为使用m-估计概率的方法的条件概率是更好的,因为我们不希望整个表达式变为零。P(A=1|+)=,P(B=1|+)=,P(C=1|+)=,P(A=1|-)=,P(B=1|-)=,andP(C=1|-)=:(A=1,B=1,C=1),puteP(+|R)andP(-|R).UsingBayestheorem,P(+|R)=P(R|+)P(+)/P(R)andP(-|R)=P(R|-)P(-)/P(R).SinceP(+)=P(-)=(R)isconstant,paringP(+|R)andP(-|R).Forthisquestion,P(R|+)=P(A=1|+)×P(B=1|+)×P(C=1|+)=(R|-)=P(A=1|-)×P(B=1|-)×P(C=1|-)=(R|+)islarger,therecordisassignedto(+)(A=1)=,P(B=1)=(A=1,B=1)=P(A)×9/14P(B)=,(A=1)=,P(B=0)=,andP(A=1,B=0)=P(A=1)×P(B=0)=(A=1,B=1|+)=(A=1|+)=(B=1|Class=+)=(A=1|+)andP(A=1|-)arenotthesameasP(A=1,B=1|+),、使用下表中的相似度矩阵进行单链和全链层次聚类。绘制树状况显示结果,树状图应该清楚地显示合并的次序。10/14