文档介绍:基于决策树的分类算法
罗俊杰
(南京大学计算机科学与技术系 南京市 210093)
A Classification Algorithm based on Decision Tree
n0I n0 A n0 A n0I n0I n0 A n0 A
I gain =- log - log - log - log
n0 n0 n0 n0 n1 n1 n1 n1
决策树主要的算法有ID3[4],J48 ,都是不断的选择最优的属性,对数据集作划分,并
建立相应的节点,直到不能划分为止.
3. 本试验中的分类算法
在本试验中,使用辅助分析软件weka[2]对对象的五个视图分别用J48 决策树进行分析,并用 10-折交叉进
行评估检测,发现评估结果的总体准确率还不错,平均能达到 95%左右,当然这毕竟是对标记数据的度量,其准
确率可能高于正常情况下对未标记属性集的测量.
但是仔细分析可以得到,判断结果中对 non-ad 的准确率较高,个别视图甚至接近 100%,但是对 ad 判断的
准确率较低,一般能接近 90%.也就是说,有大量的 ad 属性被判断为 non-ad,而 non-ad 被判断为 ad 的情况较少.
从标记属性集的样本中可以看到,样本中 ad 属性的个数较少,大概为总体数据的 10%左右,也就是说如果所有
的样本都被判断为 non-ad,那总体的分类正确率也可以达到 90%.而在实际情况中这样的分类准确率其实是
没有什么实用价值的.
我们对其中一个视图由 weka 产生的 J48 决策树进行具体分析.
图 1
由上图可以得到,由产生的 J48 决策树在对样本进行判断时将9个ad属性判断为non-ad 属性,而没有
将 non-ad 属性判断为 ad
,我们应该在提高总体分类正确率的基础上尽量提高