文档介绍:金融数据挖掘
轴
二、分类案例教学——
上市公司财务困境预测模型构建
1、要求:
将因财务状况异常而被特别处理的ST公
class y;
run;
③、SAS结果
对两个距离的说明。现在可以得到线行判别函数为:
④、如何建立预测规则
* 指标的判断:正指标还是负指标(正指标)。
* 根据两种误判的损失估计确定合适的临界值
现在根据使两种误判尽可能接近的方法,得到:
临界值:d =
⑤、预测规则:
对每个上市公司计算对应的d,若d>,则判断其一年后不会陷入财务困境;若d<,则判断其一年后会陷入财务困境。
⑥、预测准确率检验:
训练样本组 检验样本组
ST公司:49/56=% 47/55 = %
非ST公司: 442/504=% 432/504 = %
⑦、讨论
* 判别分析只能运用于离散型因变量预测,而不能运用于连续型因变量预测;
* 建立线性判别准则,需要较强的限制条件——正态分布与等协方差矩阵;
* 临界值的确定需考虑不同误判的损失函数,考虑使用者的风险偏好;
* 使用判别分析方法,需要事先确定预测变量。
* 也可以建立另外形式的预测规则。
练****交换sj1与sj2的地位,建立预测规则,并进行预测准确率检验。或建立其他问题的判别分析预测模型。
2、Logistic回归预测
①、统计学原理
计量经济学中,回归模型具有预测功能,但现在的数据结构为: ,因变量为离散变量(虚拟变量),一般的线性回归模型不适用。
Logistic回归模型实际上是概率预测模型,其原理如下:
建立如下形式的线性模型:
则得到概率预测模型
Logistic回归模型为非线性模型,模型的参数估计不能用最小二乘法,而采用极大似然估计法。
②、Logistic回归的SAS程序
proc logistic descending data=;
model y = x1-x6;
run;
③、SAS结果
④、临界值确定与预测规则
临界值:,预测规则:
P>,一年后上市公司将陷入财务困境;P<,一年后上市公司不会陷入财务困境.
⑤、预测准确率检验
训练样本组 检验样本组
ST公司 46/56=% 44/55=80%
非ST公司 433/504=% 425/504=%
⑥、讨论
* 模型可用于分类预测,也可用于概率预测(如违约率预测);
* 构建模型时应该避免非随机抽样,否则模型参数估计会产生偏差,特别是在构建概率预测模型时;
* 如果需要采用分层抽样方法,则对参数估计方法应进行调整;
* 事先确定预测变量,否则的话,可以采用逐步回归法。
⑦、逐步回归方法与预测变量选取
预测变量选取是建立分类预测模型的关键步骤。经常的情况是,知道预测变量的大致范围,但不知哪些变量具有较大的信息含量。
利用逐步回归方法,可以在这个范围内挑选出较佳的构建Logistic回归模型的预测变量组。
现在,另外选取了15个可能有用的预测指标y1-y15,对1119家上市公司利用逐步回归法建立预测模型。
⑧、逐步回归的SAS程序
proc logistic descending data=;
model y=y1-y15 / selection=stepwise;
run;
⑨、SAS结果
构建Logistic回归模型的变量为:
y3、y4、y5、y6