文档介绍：监督学****br/>1 基本概念
监督学****又称为分类(Classification)或者归纳学****Inductive Learning)。几乎适用于所有领域，包括文本和网页处理。给出一个数据集D,机器学****的目标就是产生一个联系■/ D cciiTiWinK ex airnplwi hckmging Eo 匾 tolkCutu of We 如日呂lc
utlribuE^ E-o pardLiDn D inLO subs tits 百廿 that each sub^ 話 puris-
丹=impurityEvaUQ);
K To r each attri but-e A{ w J ■(=■ {A( ? A 冷 …缶}) d o
9 PL impuri ty Eval -2( D}
皿 cinlfiir
]] Select e Mh /寸 Jt f that gives the biggest impurrty roductiorL,
compiled lining—口；
if ”9 — p* V d th CO "dws- not signiiic: redixx1 impuri ty
make ra leaf node labeled with the most frequ-ent ch阴 in D.
else 〃 As 检启bk to TCdue亡 impinty阿
Make Ta decision node on
Ld tlic possible uf bt 叨、f勺 …：v^. Pdrtitkii] D into ni
disjoint subsets Uh D21 , 亠 based an the m values of .4^.
for each DJ in [D|, D-^ - M do
IX if £^^0 thi?n
create a branch (edge} node T* for 17as a child node of Tj
deci afonTreetZ^ A T冲/, 7}} // 4 ei$ KTiiovcd
indif
riiLirur
end i f
endLf
图 2-2 决策树学****算法
该算法最核心的思想就是选择能最大限度降低类别混杂度的属性作为决策点。其中的第
7行使用熵的公式计算：
entropy(D) = - Pr(c )log Pr(c )
j2j
j=1
乙 Pr(c ) = 1
j
j=1
熵在这里代表一个集合的无序程度，集合中的熵偏小，说明该集合中的大部分元素都是
同质的。
第 9 行计算划分后的熵大小。采用如下公式：
entropy (D) = £
Ai
j=1
D
―j x entropy (D )
D j
其中v是划分后子集的个数。
信息增益计算公式如下：
gain(D, A ) = entropy(D) - entropy (D)
i Ai
信息增益用来衡量混杂度的减少量。算法第11行进行这个操作’选择最大的役使得混杂度的减少量达到最大。
3 分类器的评估标准
主要的评估标准就是分类精度，它是用在测试集中被正确分类的数据数量除以测试集中的数据数量得到。
在一些实际应用中，我们仅对数量占少数的类别感兴趣，那些用户感兴趣的类别通常称为正例类别，其他类别称为负例类别。
查准率、查全率和F-score是评价分类器的三个常用指标，通过混合矩阵，我们可
以很方便地得到查准率和查全率两个数据，混合矩阵(如表 3-1)中包含数据的真实情
况和分类器的预测结果。
TP
FN
FP
TN
表 3-1 分类器的混合矩阵
实际上为正例
实际上为负例
分类器认为是正例分类器认为是负例
根据上述混合矩阵，正例类别的分类查准率(p)和查全率(r)定义如下
TP
TP + FN
TP
p = , r =
TP + FP
尽管查准率和查全率理论上是不相关的，但是在实际应用中，高查准率往往实在牺
牲查全率的情况下得到的。同样，高查全率是在牺牲高查准率的情况下得到的。在实际应用中到底哪个标准更重要取决于这个应用，如果仅用一个指标来衡量分类器的性能此时常使用 F-score：
p + r
F-score 是查全率和查准率的调和平均值。两个数值的调和平均值更加倾向于两个数当中较小的那个。因此，如果想得到较高的F-score，则p和r都必须很高。
4 朴素贝叶斯分类
准备知识
条件概率：设A, B是两个事件，且Pr(A) > 0称Pr(BI A) = pr(AB)为在条件A下发生的
Pr(A)