文档介绍：1 第三章监督学****算法监督学****又称为分类( Classification ) 或者归纳学****Inductive Learning )。几乎适用于所有领域,包括文本和网页处理。给出一个数据集 D,机器学****的目标就是产生一个联系属性值集合 A 和类标集合 C的分类/ 预测函数( Classification/Prediction Function ) ,这个函数可以用于预测新的属性集合的类标。这个函数又被称为分类模型( Classification Model )、预测模型( Prediction Model )。这个分类模型可以是任何形式的,例如决策树、规则集、贝叶斯模型或者一个超平面。在监督学****Supervised Learning )中, 已经有数据给出了类标; 与这一方式相对的是无监督学****Unsupervised Learning ), 在这种方式中, 所有的类属性都是未知的,算法需要根据数据集的特征自动产生类属性。其中算法中用于进行学****的数据集叫做训练数据集,当使用学****算法用训练数据集学****得到一个模型以后,我们使用测试数据集来评测这个模型的精准度。机器学****的最基本假设:训练数据的分布应该与测试数据的分布一致。训练算法: 训练算法就是给定一组样本,我们计算这些参数的方法。本节简要介绍以下几种常用的机器学****算法,比如决策树,朴素贝叶斯,神经网络,支持向量机,线性最小平方拟合, kNN ,最大熵等。两类感知器见课本多类感知器见课本决策树算法决策树学****算法是分类算法中最广泛应用的一种技术,这种算法的分类精度与其他算法相比具有相当的竞争力,并且十分高效。决策树是一个预测模型;他代表的是对象属性与对象值之间的一种映射关系。树中每个节点表示某个对象属性,而每个分叉路径则代表的某个可能的属性值,而每个叶结点则对应从根节点到该叶节点所经历的路径所表示的对象的值(类别)。决策树仅有单一输出,若欲有复数输出,可以建立独立的决策树以处理不同输出。如何构造精度高、规模小的决策树是决策树算法的核心内容。决策树构造可以分两步进行。决策树的生成:由训练样本集生成决策树的过程。一般情况下, 训练样本数据集 2 是根据实际需要有历史的、有一定综合程度的,用于数据分析处理的数据集。。 ,并用该类标记。 ,算法选择最有分类能力的属性作为决策树的当前结点。 4. 根据当前决策结点属性取值的不同,将训练样本数据集分为若干子集,每个取值形成一个分枝。 5. 针对上一步得到的一个子集,重复进行先前步骤,形成每个划分样本上的决策树。 : (a) 给定结点的所有样本属于同一类。(b) 没有剩余属性可以用来进一步划分样本。以样本组中个数最多的类别作为类别标记。决策树的剪技: 决策树的剪枝是对上一阶段生成的决策树进行检验、校正和修下的过程,主要是用新的样本数扼集(称为测试数据集)中的数据校验决策树生成过程中产生的初步规则,将那些影响预衡准确性的分枝剪除。由于数据表示不当、有噪声或者由于决策树生成时产生重复的子树等原因,都会造成产生的决策树过大。因此,简化决策树是一个不可缺少的环节。寻找一棵最优决策树,主要应解决以下 3个最优化问题: ; ; 3 。例如,对于表 3 -1所示的贷款申请的数据集,可以学****到一种决策树结构, 表示为图 3 -1。表3 -1 贷款申请数据根据数据集建立的一种决策树结构如下: 图3 -1 对应与表 3 -1 的决策树树中包含了决策点和叶子节点, 决策点包含针对数据实例某个属性的一些测试,而一个叶子节点则代表了一个类标。一棵决策树的构建过程是不断的分隔训练数据,以使得最终分隔所得到的各个子集尽可能的纯。一个纯的子集中的数据实例类标全部一致。决策树的建立并不是唯一的,在实际中,我们希望得到一棵尽量小且准确的决策树。决策树的典型算法有 ID3 , ,CART (分类与回归树)等。依次得到改进。相对于其它算法,决策树易于理解和实现,人们在通过解释后都有能力去理解决策树所表达的意义。决策树可以同时处理不同类型的属性,并且在相对短的时间 4 内能够对大型数据源做出可行且效果良好的结果。贝叶斯分类算法贝叶斯分类器的分类原理是通过某对象的先验概率,利用贝叶斯公式计算出其后验概率,即该对象属于某一类的概率,选择具有最大后验概率的类作为该对象所属的类。目前研究较多的贝叶斯分类器主要有四种,分别是: Naive Bayes 、 TAN 、 BAN 和 GBN 。▲准备知识条件概率: