文档介绍:分类与预测Vicky银行个人住房贷款审批银行个人客户提出住房贷款申请,根据历史数据发现:部分贷款客户不能按时还款。为尽量降低这种现象,需要发现不能按时还款客户的特征,以便对以后住房贷款申请的审批提供依据。2006年年底,由SAS机构与招商银行启动了全行个人住房贷款评分卡开发与推广项目。该项目利用客户的历史数据构建评分卡模型,然后将该模型应用到新客户上,最后决定是否接受新客户的贷款申请。分析数据集应该包括哪些客户?银行贷款申请IDAgeHas_jobOwn_homeCreditClass1YoungNoNoFairNo2YoungNoNoGoodNo3YoungYesNoGoodYes4YoungYesYesFairYes5YoungNoNoFairNo6MiddleNoNoFairNo7MiddleNoNoGoodNo8MiddleYesYesGoodYes9MiddleNoYesExcellentYes10MiddleNoYesExcellentYes11OldNoYesExcellentYes12OldNoYesGoodYes13OldYesNoGoodYes14OldYesNoExcellentYes15OldNoNoFairNo分类与预测分类:目标变量为非数值型预测:目标变量为数值型根据历史数据集(已知目标变量),构建模型描述目标变量与输入变量之间的关系,并依据模型来分类或预测新数据(目标变量值未知)。分类模型也称为分类器。模型应用建模规则1:Ifrefund=noandmarst=marriedthencheat=no……模型评估分类的过程数据集分区训练集:建立模型验证集:调整和选择模型测试集:评估模型的预测能力建立模型评估并选择模型运用模型新数据(打分集)思考:分类模型在什么情况下不适合用于新数据?分类方法决策树方法贝叶斯分类法LOGISTIC回归神经网络方法K近邻分类法SVM分类法……….RootLeafNode*决策树(decisiontree)规则1:Ifrefund=noand(marst=singleormarst=divorced)e>80kthencheat=yes……决策树是一棵二叉或多叉树结构每个内部节点代表一个属性,该节点的分支表示根据该属性的不同测试条件的输出叶子节点表示一个类标决策树一般是自上而下生成的决策树基本思想建立决策树将决策树转换为决策规则并应用相关问题讨论内容一、决策树思想将数据集根据某种测试条件分为2个或多个子集,使分裂后的子集在目标变量上具有更纯的分类纯度与混杂度