文档介绍:数据挖掘概念与技术——分类计算机信息与工程学院计算机科学与技术专业邱骏达事实的真相往往被层层迷雾所掩盖,我们不能在杂乱无章的荆棘道路上横冲直撞,我们要相信,磨刀不误砍柴工,当一大堆埋葬着巨大财富但又杂乱无章的数据堆放在我们面前的时候,好的分类方法,正确构建的分类器可以帮助我们进行快速、准确的数据分类。本章节学****脉络:分类的一般方法几种分类器的原理模型评估与选择提高分类准确率的技术万物溯其源——何为分类分类是预测问题的主要类型之一。许多问题,诸如:银行贷款信用预测、销售人群预测、医学数据分析都需要用到分类的知识,通过构造模型或者分类器来预测“类标号”。所谓的“类标号”比如:贷款申请数据的“安全”或“危险”,销售数据中的“是”或“否”。万物寻其因——分类有何作用分类的目的:通过对大量同类信息的分类,来做出对整体数据集的分析,从而实现对事物结果的预测,辅助人们进行决策。分类的应用有很多种:比如欺诈检测、目标经营、性能预测、制造和医疗诊断。分类的一般方法分为两个阶段:学****阶段(构件分类模型):建立描述预先定义的数据类或概念集的分类器。分类阶段(使用模型预测给定数据的类标号):在分类阶段,要使用检验数据来评估分类规则的准确性。万物观其形——分类的一般方法分类的第一阶段:学****阶段学****阶段又可称为监督学****从监督学****四个字中,就可以大致掌握学****阶段的基本理念。所谓监督学****就是分类器的学****在被告知每个训练元祖属于哪个类的“监督”下进行的,也就是说学****阶段的训练数据是有其已知的“类标号”的。学****阶段理解的前期准备以银行贷款信用预测为例来认识学****阶段:注:在此只简单地把贷款的风险与贷款人的姓名、年龄段、收入三个属性进行“挂钩”,以求得简单易懂。举例:eSandyJonesyouthLowBillLeeyouthLowCarolineFoxMiddle_agedhighStep1:建立训练集训练集由数据库元组加上与它们相关联的类标号组成。其中训练集中的元组称为训练元组。训练集=数据元组+类标号(多组数据)训练元组=数据元组+类标号(单个数据库元组)eLoan_decisionSandyJonesyouthlowRiskyBillLeeyouthlowRiskyCarolineFoxmiddle_agedhighSafeRickFieldmiddle_agedlowriskyStep2:分类算法通过分析或从训练集“学****来确定分类规则,从而构造分类器。分类算法有很多:决策树、贝叶斯法等等。现在只是举例说明分类的一般过程,算法具体的分析在后面展开。经过分类算法的分析以后,此例的分类规则如下IFage=youthTHENloan_decision=e=highTHENloan_decision=safeIFage=e=lowTHENloan_decision=risky.....