1 / 11
文档名称:

基于朴素贝叶斯算法的客户画像分析.doc

格式:doc   大小:19KB   页数:11页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

基于朴素贝叶斯算法的客户画像分析.doc

上传人:好用的文档 2022/6/25 文件大小:19 KB

下载得到文件列表

基于朴素贝叶斯算法的客户画像分析.doc

相关文档

文档介绍

文档介绍:基于朴素贝叶斯算法的客户画像分析
摘 要:近年来,客户需求日益多样化与个性化,由此利于相关数据模型来剖析客户需求点与变化方向日益重要。文章通过朴素贝叶斯模型对合同、项目等相关数据因素进行分析,借助WEKA平台探索数据因素间alysis,WEKA),是一个开源的、免费的非商业化数据挖掘平台,包含了数据挖掘的诸多算法模型,如聚类分析、分类分析、回归分析、关联分析等,还提供了可视化展示。
数据预处理
获得该公司的2016—2018年的合同、项目建设计划、财务等相关业务数据共计13 625条,剔除无效数据100条。将应回款额为null的赋值为0。将合同中的产品线与该公司最新产品线目录进行比对,并修正更新。WEKA平台进行数据挖掘,面临的第一个问题往往是数据不是arff格式,实验的原始数据表为xls格式,将xls文件转换为cvs文件,通过WEKA平台的过滤器将cvs文件转换为arff格式。此外,并不是所有的数据因素都和挖掘任务相关,在进行数据挖掘之前,需要将与挖掘分析任务无关的数据因素去除,从而提高数据挖掘的效率,提升分析结果的准确性。
特征筛选 构建客户画像模型涉及的数据因素包括合同总额、客户所在地经济水平(GDP与售电量)、核心产品占有率、项目量、项目建设周期、项目利润率、合同收入、合同已回款、合同应回款、客户投诉量等(见图1)。
实例分析
客户画像涉及的相关数据因素包括:
合同总额,近3年公司签署的合同额。
项目總量,近3年公司承建的项目量;各类型项目占比,各类项目合同总在合同总额中的占比。
项目建设周期,项目开始至结束的时长。
项目验收及时率,按期验收的项目数在计划验收的项目数中的占比。
项目经理工龄,参加工作的年限。
客户所在地售电量,客户所在省份售给用户(包括趸售户)的电量。
客户所在地GDP,客户所在省份的国民生产总值。
通过WEKA平台中的朴素贝叶斯模型对客户特征进行分析,如表1所示,客户画像相关的数据因素作为分量属性,客户类型作为决策变量属性。
该公司的核心产品线为信息安全设备及接入系统、传输网设备、ERP软件、电网调度管理、信息安全咨询服务、电网生产管理、运营监测、通信系统集成、通信综合监管及服务,%。项目分布在全国各地,涉及23个省、5个自治区、4个直辖市,其中江苏、北京、甘肃、山东、辽宁、安徽、广东、福建、浙江、%,结合售前、售中、售后方面的需求,经归纳,各类型的客户群体特征如下。
战略客户群特征
战略客户群产品销售额占比最大,客户所在省份分布于经济发达地区,由于经济发达,相应的电力设施建设投入也较大,导致产品需求量也较大。公司在战略客户群所投入资源量最大、服务人员素质最优,建设周期相对较短,客户投诉量很少,客户满意度高,项目的利润率较高。
利润客户群特征
利润客户群的特征呈现出核心产品销售额比例较高,其他产品线的销售额比例较低,整体项目利润较高。主要原因是该区域客户有大量的租赁项目,租赁项目的销售额较大,且涉及公司核心产品的租赁,但租赁业务持续性不足,后续市场销售额持续增长乏力,且客户的投诉量呈递增趋势。
潜力客户群特征
潜力客户群数量最大,销售额呈逐年递增趋势,核心产品销售额占比仅为公司平均水平,单个客户单位的销售总额一般。此外,客户的诉求量较多,尤其是项目建设规范性方面呈现的问题比例较高。在建设进度方面,项目建设周期最长,导致项目成本增加,利润率不高的现象。
普通客户群特征
普通客户群主要分布在经济欠发达省份,核心产品销售额占比远低于公司平均水平,单位客户销售较低。由于客户所在地距离公司所在地较远,导致售后服务不到位,用户投诉主要反馈在产品质保与售后服务方面。
实验验证
为验证分析的结论,采用K折交叉验证法进行验证(见图2)。将2016—2018年的合同与项目数据随机划分为10等份,不重复的选取其中一个子样本作为测试集,其他9个样本用来训练。将测试集与验证集互相形成补集,最终得到一个单一估测。该方法的优势在于,保证每个子样本都参与训练且都被测试,降低泛化误差。
通过交叉计算验证,获得本次实验验证的分类比例与混合矩阵。总实例数为2 203个,其中真确分类的实例数为2 082个,%;错误分类的实例数为121个,%。混合矩阵(见表2)显示:
(1)战略客户的数量为550