文档介绍:CART算法对航空公司客户流失的应用
【摘要】
为了降低客户的流失造成公司的巨大损失,构建了客户流失模型。通过航空公司的客户信息、数据预处理、属性规约、数据离散化以及样本选取构建数据集,并利用cart算法进行客户流失的预测,利用混淆矩阵算不同的变量与member_type的相关性。对原始数据集中数值型变量,通过双变量pearson相关性检验来说明变量间的相关性。从44个属性中选取相关性比较高的20个属性(),如表4所示。其他属性对mem⁃ber_type的影响很小,可以忽略不计,因此直接剔除。“合适的”格式,以便适应数据挖掘的需要。这里采用的是属性构造以及数据离散化,采用聚类算法的方式将除了客户级别、客户类型的其他属性分成3类。,通过原始数据计算以下指标。5)综上,最终确定的数据属性个数为12,第13列为标签列。,每个属性(除了客户级别)分成3类,其离散表如表5所示。,数据正负样本比例并非一定是相同或等比的才是样本平衡。这里最终得到的数据一共31272条记录,标记为0的数据未流失客户为17396,标记为1的数据准流失客户是7252,标记为2的数据已流失客户是6624,样本比例大致是:∶1∶1,决策树正负样本比例最佳时1∶[9]接近数据样本最佳比例,所以直接用数据进行训练以及测试。
4模型的建立以及实现
混淆矩阵是表示真实属性与识别结果类型之间关系的一种常用表达形式,也是评价分类器性能的一种常用方式。经过数据准备工作,预处理后的样本数据达到了建模数据质量要求,在此基础上直接通过python包含的scikit_learn利用训练样本构造cart算法决策树模型,建立客户流失预测模型,默认叶子节点包含的最小样本数为2。选择10-fold交叉验证方式,即随机选择80%为训练样本,20%为测试样本,得到混淆矩阵,即可获得分类器的正确识别率和错误识别率。由图1可知,随机选择训练样本为25017,则整体分类准确率是(14998+6012+2977)/25017=%。第一行说明,有12998个样本分类准确,%,属于未流失客户,有141个样本被误判为准流失客户,有5个样本为误判为已流失客户;第二行说明,%,属于准流失客户,有675个样本被误判为未流失客户,有205个样本被误判为已流失客户;第三行说明有2977个样本分类准确,%,属已流失客户,有1个样本被误判为未流失客户,有3个样本被误判为准流失客户。%,说明该模型效果良好。
受试者工作特性roc曲线[10]反映了分类器正确的体积概率,其值越是接近1说明该结果越好。为了进一步评估模型分类的性能,用测试样本对其采用roc曲线进行评估,一个优秀的分类器所对应的roc曲线应该是尽可能的靠近左上角。由图2可知,该模型效果优良,对客户流失预测是合理、准确的。
航空公司客户流失分析的最终目标是要给公司的营销计划给予指导,从以下几方面进行阐述。由于本模型采用