文档介绍:CART算法对航空公司客户流失的应用
为了降低客户的流失造成公司的巨大损失,构建了客户流失模型。通过航空公司的客户信息、数据预处理、属性规约、数据离散化以及样本选取构建数据集,并利用CART算法进展客户流失的猜测,利用混淆矩阵和ROC曲线
客户流失分析一般是针对老客户而言,这里定义飞行次数FIGHT_COUNT大于6次的客户为老客户。由于客户类型MEMBER_TYPE是由其次年飞行次数以及第一年飞行次数的比例确定的,则第一年飞行次数等于0的记录不满意分母不为零的条件。发觉数据中存在缺失值,原始数据中存在票价为空值,最小票价为0,最小票价折扣率为0,总飞行公里数大于0的状况。由于原始数据量很大,这类数据占比比拟小,对于问题的分析影响很小,所以对这些记录直接删除,即删除票价为空的记录;删除票价是0、平均折扣率是0、总公里数大于0的数据。经过数据的简洁处理后,剩余数据是31,272条记录。,选取客户的关键属性。即需要选取与MEMBER_TYPE相关性比拟强的变量,计算不同的变量与MEMBER_TYPE的相关性。对原始数据集中数值型变量,通过双变量Pearson相关性检验来说明变量间的相关性。从44个属性中选取相关性比拟高的20个属性(),如表4所示。其他属性对MEMBER_TYPE的影响很小,可以忽视不计,因此直接剔除。“适宜的”格式,以便适应数据挖掘的需要。这里采纳的是属性构造以及数据离散化,采纳聚类算法的方式将除了客户级别、客户类型的其他属性分成3类。,通过原始数据计算以下指标。5)综上,最终确定的数据属性个数为12,第13列为标签列。,每个属性(除了客户级别)分成3类,其离散表如表5所示。,数据正负样本比例并非肯定是一样或等比的才是样本平衡。这里最终得到的数据一共31272条记录,标记为0的数据未流失客户为17396,标记为1的数据准流失客户是7252,标记为2的数据已流失客户是6624,样本比例大致是:∶1∶1,决策树正负样本比例最正确时1∶[9]接近数据样本最正确比例,所以直接用数据进展训练以及测试。
4模型的建立以及实现
混淆矩阵是表示真实属性与识别结果类型之间关系的一种常用表达形式,也是评价分类器性能的一种常用方式。经过数据预备工作,预处理后的样本数据到达了建模数据质量要求,在此根底上直接通过PYTHON包含的Scikit_Learn利用训练样本构造CART算法决策树模型,建立客户流失猜测模型,默认叶子节点包含的最小样本数为2。选择10-fold穿插验证方式,即随机选择80%为训练样本,20%为测试样本,得到混淆矩阵,即可获得分类器的正确识别率和错误识别率。由图1可知,随机选择训练样本为25017,则整体分类精确率是(14998+6012+2977)/25017=%。第一行说明