文档介绍：考虑表中二元分类问题的训练样本集整个训练样本集关于类属性的熵是多少?关于这些训练集中a1,a2的信息增益是多少?对于连续属性a3,计算所有可能的划分的信息增益。根据信息增益,a1,a2,a3哪个是最佳划分?根据分类错误率,a1,a2哪具最佳?根据gini指标,a1,a2哪个最佳?(+)=4/9andP(−)=5/9−4/9log2(4/9)−5/9log2(5/9)=:(估计不考)答3:答4:Accordingtoinformationgain,:Forattributea1:errorrate=2/:errorrate=4/,accordingtoerrorrate,:,,决策树归纳会用哪个属性?这个答案没问题从图4-13可以看出熵和gini指标在[0,]都是单调递增,而[,1]之间单调递减。有没有可能信息增益和gini指标增益支持不同的属性?解释你的理由Yes,eventhoughthesemeasureshavesimilarrangeandmonotonousbehavior,theirrespectivegains,Δ,whicharescaleddifferencesofthemeasures,donotnecessarilybehaveinthesameway,asillustratedbytheresultsinparts(a)and(b).贝叶斯分类P(A=1|−)=2/5=,P(B=1|−)=2/5=,P(C=1|−)=1,P(A=0|−)=3/5=,P(B=0|−)=3/5=,P(C=0|−)=0;P(A=1|+)=3/5=,P(B=1|+)=1/5=,P(C=1|+)=2/5=,P(A=0|+)=2/5=,P(B=0|+)=4/5=,P(C=0|+)=3/5=(A=0|+)=(2+2)/(5+4)=4/9,P(A=0|−)=(3+2)/(5+4)=5/9,P(B=1|+)=(1+2)/(5+4)=3/9,P(B=1|−)=(2+2)/(5+4)=4/9,P(C=0|+)=(3+2)/(5+4)=5/9,P(C=0|−)=(0+2)/(5+4)=2/(A=0,B=1,C=0)=K当的条件概率之一是零,则估计为使用m-估计概率的方法的条件概率是更好的,因为我们不希望整个表达式变为零。P(A=1|+)=,P(B=1|+)=,P(C=1|+)=,P(A=1|−)=,P(B=1|−)=,andP(C=1|−)=:(A=1,B=1,C=1),puteP(+|R)andP(−|R).UsingBayestheorem,P(+|R)=P(R|+)P(+)/P(R)andP(−|R)=P(R|−)P(−)/P(R).SinceP(+)=P(−)=(R)isconstant,paringP(+|R)andP(−|R).Forthisquestion,P(R|+)=P(A=1|+)×P(B=1|+)×P(C=1|+)=(R|−)=P(A=1|−)×P(B=1|−)×P(C=1|−)=(R|+)islarger,therecordisassignedto(+)(A=1)=,P(B=1)=(A=1,B=1)=P(A)×P(B)=,(A=1)=,P(B=0)=,andP(A=1,B=0)=P(A=1)×P(B=0)=(A=1,B=1|+)=(A=1|+)=(B=1|Class=+)=(A=1|+)andP(A=1|−)arenotthesameasP(A=1,B=1|+),。绘制树状况显示结果,树状图应该清楚地显示合并的次序。