文档介绍:第3章分类与预测主要内容?分类与决策树概述?ID3、?CART分类VS. 预测?分类和预测是两种数据分析形式,用于提取描述重要数据类或预测未来的数据趋势的模型?分类:?预测类对象的分类标号(或离散值)?根据训练数据集和类标号属性,构建模型来分类现有数据,并用来分类新数据?预测:?建立连续函数值模型?比如预测空缺值,或者预测顾客在计算机设备上的花费?典型应用?欺诈检测、市场定位、性能预测、医疗诊断?分类是一种应用非常广泛的数据挖掘技术?分类与预测的区别:?当估计的属性值是离散值时,这就是分类;?当估计的属性值是连续值时,这就是预测。分类和预测---示例?分类?银行贷款员需要分析数据,来弄清哪些贷款申请者是安全的,哪些是有风险的(将贷款申请者分为“安全”和“有风险”两类)?我们需要构造一个分类器来预测类属编号,比如预测顾客属类?预测?银行贷款员需要预测贷给某个顾客多少钱是安全的?构造一个预测器,预测一个连续值函数或有序值,常用方法是回归分析数据分类——一个两步过程(1)?第一步,也成为学习步,目标是建立描述预先定义的数据类或概念集的分类器?分类算法通过分析或从训练集“学习”来构造分类器。?训练集由数据库元组(用n维属性向量表示)和他们相对应的类编号组成;假定每个元组属于一个预定义的类?训练元组:训练数据集中的单个元组?学习模型可以用分类规则、决策树或数学公式的形式提供数据分类——一个两步过程(2)?第二步,使用模型,对将来的或未知的对象进行分类?首先评估模型的预测准确率?对每个测试样本,将已知的类标号和该样本的学习模型类预测比较?模型在给定测试集上的准确率是正确被模型分类的测试样本的百分比?测试集要独立于训练样本集,否则会出现“过分拟合”的情况第一步——建立模型训练数据集NAMERANKYEARSTENUREDMikeAssistant Prof3noMaryAssistant Prof7yesBill Professor2yesJimAssociate Prof7yesDaveAssistant Prof6noAnneAssociate Prof3no分类算法IF rank = ‘professor’OR years > 6THEN tenured = ‘yes’分类规则第二步——用模型进行分类分类规则测试集NAMERANKYEARSTENUREDTomAssistant Prof2noMerlisaAssociate eProfessor5yesJosephAssistant Prof7yes未知数据(Jeff, Professor, 4)Tenured?监督学习VS. 无监督学习?监督学习(用于分类)?模型的学习在被告知每个训练样本属于哪个类的“指导”下进行?新数据使用训练数据集中得到的规则进行分类?无监督学习(用于聚类)?每个训练样本的类编号是未知的,要学习的类集合或数量也可能是事先未知的?通过一系列的度量、观察来建立数据中的类编号或进行聚类数据预测的两步过程?数据预测也是一个两步的过程,类似于前面描述的数据分类?对于预测,没有“类标号属性”?要预测的属性是连续值,而不是离散值,该属性可简称“预测属性”?. 银行贷款员需要预测贷给某个顾客多少钱是安全的?预测器可以看作一个映射或函数y=f(X)?其中X是输入;y是输出,是一个连续或有序的值?与分类类似,准确率的预测,也要使用单独的测试集