文档介绍：流失模型是典型的学****模型,有几个常见方法能够选决策树、逻辑回归(或者尝试神经网络,不利于应用和解释,也能够试试看)。决策树的特点:适用布尔、分类和连续的变量(对连续变量也会内部转化为分类变量)、结果容易解释、筛选变量快;但决策树不稳定,容易训练过度(在训练时看起来很准确,但应用时预测准确率大打折扣)逻辑回归的特点:逻辑回归的底层思想和多元回归接近,延续了回归算法不温不火的稳定风格,相比回归算法,logistic回归不要求变量有正态分布和等协方差前提,也能够尝试着用哑变量来融入分类变量,使用更方便,但逻辑回归准确率相对较低(所谓成也萧何,败也萧何)。和决策树相比,回归算法稳定性好的多我****惯于:1、使用决策树进行变量范围筛选2、使用逻辑回归进行预测3、个别时候尝试着用因子分析进行变量转载(我试过的模型,有时候有一点点小的提升,和变量共线性特点有关,但不会有超乎意料的收获)构建流失行为的特征内部自有数据丰富的内部交易明细数据,包括本币活期储蓄波动率,本币活期储蓄月日均余额,电话银行总交易笔数...能够构建的特征: ①不同交易的数额的比例 ②单笔交易的平均数额 ③某种交易的笔数占全部交易笔数的比例例如: 最大波动=max{本币一年以下波动,本币一年以上波动率,储蓄类资产波动率,本币储蓄波动率}若信息存在冗余,需要按情况进行剔除 情况一:“本币活期月日均余额占比”=1–“本币定期月日均余额占比”变量“本币活期月日均余额占比”与“本币定期月日均余额占比”存在冗余性,知道其一必知道其二,需要剔除一个。情况二“资产当前总余额”=“本币储蓄当前总余额”+“外币储蓄当前总余额”如果是(广义)线性回归模型,三者不能同时放进模型。对于树模型,能够将其中任意两个放进模型,剩余的做转换,比如做一个离散变换。外部数据包含了客户在电信运营商的详情 包括:通话时间与次数话费详情特定的呼叫行为其它信息能够衍生的特征 月平均通话时间的变化=过去三个月月平均通话时间−过去六个月月平均通话时间 月平均通话次数的变化=过去三个月月平均通话次数−过去六个月月平均通话次数 月平均缴纳话费的变化=过去三个月月平均缴纳话费−过去六个月月平均缴纳话费评分模型按照模型所预测的未来表现结果划分,有:1、风险评分模型:对违约拖欠的风险概率进行预测;2、收益评分模型:对消费者给信贷机构带来收益的潜力大小进行预测;3、流失倾向评分模型:对现有客户在未来一定时期内流失的概率进行预测;4、市场反应评分模型:对目标客户接受信贷机构营销的概率进行预测;5、转账倾向评分模型:对目标客户把贷款余额从别的银行转账过来的概率进行预测;6、循环信贷倾向评分模型:对目标客户或现有客户利用信用卡账户进行循环信贷的概率进行预测;7、欺诈评分模型:对信用卡申请或信用卡交易为欺诈行为的概率进行预测。第四章数据挖掘与信用评分模型的技术  消费信贷管理实践中常见的数据挖掘和评分模型技术和方法包括:对数据进行描述和总结的技术;对变量进行栏位划分和信息转换的技术;主成分分析;因子分析;变量类聚分析;类聚分析;逻辑回归模型;神经网络模型;判别分析;决策树模型;共性过滤分析;多元回归模型;基因算法;RFM分析;存活分析;时间系列分析:趋势分析、季节性分析、ARIMA模型。一、对数据进行描述和总结的技术   常见的技术方法有:频率、均值、中位数、方差、极大值、极小值、1/100区间、1/10区间、1/4区间、多维交叉表、相关系数。   这些基本统计手段常见于:对数据的集中度和离散度等分布特征进行简单的描述;对数据的质量进行稽核;对数据间的关系进行初步的探索;产生直观的报表。   优点:直观了解数据的特征;简单明了容易使用;对数据质量检查有很强大的功能。   缺点:对数据分析和探索停留在初步阶段;反映的信息是一维的,不能对信息进行系统化地综合。二、对变量进行栏位划分和信息转化的技术   适用于连续性变量、类别性变量。转化后能够计算log(odds)。   优点:有效捕捉数据中蕴藏的非线性关系;有效捕捉数据中蕴含的非单调性关系;有效将变量标准化,使原始数值规模不相同的变量取得一致的统计数值;有效将类别性变量包括到模型中;有效处理缺失值和特殊值;有效提高模型的“抗震荡性”;有效提高模型的可解释性。   缺点:劳动密集性的过程,劳动量大;资源密集性的过程,耗费多的计算机资源和人力资源;有一定主观判断的成分(划分成多少个栏位、如何划分、每个栏位的样本量、划分后的表现是否合理等);会损失部分有用的信息;对模型的实施有额外的要求。三、主成分分析、因子分析、变量类聚分析  这3种统计方法主要是用来减少变量数目的统计技术。  优点:迅速从大量的候选变量中选择有限数目的变量代表;在极大程度上保留有用的信息;降低了模型最终候选变量的相关性,提高模型的“