文档介绍:利用K-Means聚类进行航空公司客户价值分析利用K-Means聚类进行航空公司客户价值分析,从产品中心转化为客户中心。针对不同类型客户,进行精准营销,实现利润最大化。建立客户价值评估模型,进行客户分类,,对客户进行分类。对不同的客户类别进行特征分析,比较不同类客户的客户价值对不同价值的客户类别提供个性化服务,制定相应的营销策略。,明确目标是客户价值识别。识别客户价值,应用最广泛的模型是三个指标(消费时间间隔(Recency),消费频率(Frequency),消费金额(ary))以上指标简称RFM模型,作用是识别高价值的客户消费金额,一般表示一段时间内,消费的总额。但是,因为航空票价收到距离和舱位等级的影响,同样金额对航空公司价值不同。因此,需要修改指标。选定变量,舱位因素=舱位所对应的折扣系数的平均值=C,距离因素=一定时间内积累的飞行里程=M。再考虑到,航空公司的会员系统,用户的入会时间长短能在一定程度上影响客户价值,所以增加指标L=入会时间长度=客户关系长度总共确定了五个指标,消费时间间隔R,客户关系长度L,消费频率F,飞行里程M和折扣系数的平均值C以上指标,作为航空公司识别客户价值指标,记为LRFMC模型如果采用传统的RFM模型,如下图。它是依据,各个属性的平均值进行划分,但是,细分的客户群太多,精准营销的成本太高。综上,这次案例,采用聚类的办法进行识别客户价值,以LRFMC模型为基础本案例,总体流程如下图,选择性抽取与新增数据抽取,形成历史数据和增量数据对步骤一的两个数据,进行数据探索性分析和预处理,主要有缺失值与异常值的分析处理,属性规约、清洗和变换利用步骤2中的已处理数据作为建模数据,基于旅客价值的LRFMC模型进行客户分群,对各个客户群再进行特征分析,识别有价值客户。针对模型结果得到不同价值的客户,采用不同的营销手段,指定定制化的营销服务,或者针对性的优惠与关怀。(重点维护老客户),2014-03-31为结束时间,选取宽度为两年的时间段,作为观测窗口,抽取观测窗口内所有客户的详细数据,形成历史数据对于后续新增的客户信息,采用当前的时间作为重点,,主要对数据进行缺失值和异常值分析。发现,存在票价为控制,折扣率为0,飞行公里数为0。票价为空值,可能是不存在飞行记录,其它空值可能是,飞机票来自于积分兑换等渠道,查找每列属性观测值中空值的个数、最大值、最小值的代码如下。importpandasaspddatafile=r'/home/kesci/input/date27730/'#航空原始数据,第一行为属性标签resultfile=r'/home/kesci/work/'#数据探索结果表data=(datafile,encoding='utf-8')#读取原始数据,指定UTF-8编码(需要用文本编辑器将数据装换为UTF-8编码)explore=(percentiles=[],include='all').T#包括对数据的基本描述,percentiles参数是指定计算多少的分位数表(如1/4分位数、中位数等);T是转置,转置后更方便查阅print(explore)explore['null']=len(data)-explore['count']#describe()函数自动计算非空值数,需要手动计算空值数explore=explore[['null','max','min']]=[u'空值数',u'最大值',u'最小值']#表头重命名print('-----------------------------------------------------------------以下是处理后数据')print(explore)'''这里只选取部分探索结果。describe()函数自动计算的字段有count(非空值数)、unique(唯一值数)、top(频数最高者)、freq(最高频数)、mean(平均值)、std(方差)、min(最小值)、50%(中位数)、max(最大值)'''-----------------------------------------------------------------以下是处理前数据countuniquetopfreqmeanstdMEMBER_NO62988NaNNaNNaNFFP_DATE6298830682011/01/13184NaNNaNFIRST_FLIGHT_DATE6298834062013/02/57748NaNNaN...-----------------------------------------------------------------以下是处理后数据空值数最大值最小值MEMBER_NO0629881FFP_DATE0NaNNaNFIRST_FLIG