文档介绍:精品文档
流失模型
是典型的学****模型, 有几个常用方法可以选决策树、逻辑回归 (或者尝试神经网络,不利于
应用和解释,也可以试试看) 。
决策树的特点:适用布尔、分类和连续的变量(对连续变量也会内部转化为分类变量) 、结
果容易解释、筛选变量快;但决策树不稳定,容易训练过度(在训练时看起来很准确,但应
用时预测准确率大打折扣)
逻辑回归的特点: 逻辑回归的底层思想和多元回归接近, 延续了回归算法不温不火的稳定风
格,相比回归算法, logistic 回归不要求变量有正态分布和等协方差前提,也可以尝试着用
哑变量来融入分类变量, 使用更方便,但逻辑回归准确率相对较低 (所谓成也萧何,败也萧
何)。和决策树相比,回归算法稳定性好的多
我****惯于:
1、使用决策树进行变量范围筛选
2、使用逻辑回归进行预测
3、个别时候尝试着用因子分析进行变量转载(我试过的模型,有时候有一点点小的提升,和变量共线性特点有关,但不会有超乎意料的收获)
构建流失行为的特征
内部自有数据
丰富的内部交易明细数据 ,包括本币活期储蓄波动率 ,本币活期储蓄月日均余额 ,电话银行总交易笔数...
可以构建的特征 : ①不同交易的数额的比例②单笔交易的平均数额③某种交易的笔数占全部交易笔数的比例
例如:
最大波动 =max{本币一年以下波动 , 本币一年以上波动率 , 储蓄类
资产波动率 , 本币储蓄波动率 }
.
精品文档
若信息存在冗余,需要按情况进行剔除
情况一:
“本币活期月日均余额占比 ” = 1 “–本币定期月日均余额占比 ”
变量 “本币活期月日均余额占比 ” 与“ 本币定期月日均余额占比 ” 存在冗余性 ,知道其一必知道其二 ,需要
剔除一个。
情况二
“资产当前总余额 ” = “本币储蓄当前总余额 ” + “外币储蓄当前总余额 ”
如果是 ( 广义 )线性回归模型 ,三者不能同时放进模型 。对于树模型 ,可以将其中任意两个放进模型 ,剩余的做转换,比如做一个离散变换。
外部数据包含了客户在电信运营商的详情
包括 :
通话时间与次数
话费详情
特定的呼叫行为
其他信息
可以衍生的特征
月平均通话时间的变化
= 过去三个月月平均通话时间
-
过去六个月月平均通话时间
月平均通话次数的变化
= 过去三个月月平均通话次数
-
过去六个月月平均通话次数
月平均缴纳话费的变化
= 过去三个月月平均缴纳话费
-
过去六个月月平均缴纳话费
评分模型
按照模型所预测的未来表现结果划分,有:
.
精品文档
、风险评分模型:对违约拖欠的风险概率进行预测;
、收益评分模型:对消费者给信贷机构带来收益的潜力大小进行预测;
、流失倾向评分模型:对现有客户在未来一定时期内流失的概率进行预测;
、市场反应评分模型:对目标客户接受信贷机构营销的概率进行预测;
、转账倾向评分模型:对目标客户把贷款余额从别的银行转账过来的概率进行预测;
、循环信贷倾向评分模型:对目标客户或现有客户利用信用卡账户进行循环信贷的概率进行预测;
、欺诈评分模型:对信用卡申请或信用卡交易为欺诈行为的概率进行预测。
第四章 数据挖掘与信用评分模型的技术
消费信贷管理实践中常用的数据挖掘和评分模型技术和方法包括:
对数据进行描述和总结的技术;
对变量进行栏位划分和信息转换的技术;
主成分分析;
因子分析;
变量类聚分析;
类聚分析;
逻辑回归模型;
神经网络模型;
判别分析;
决策树模型;
共性过滤分析;
多元回归模型;
基因算法;
RFM 分析;
存活分析;
时间系列分析:趋势分析、季节性分析、ARIMA 模型。