文档介绍：金融数据挖掘
轴
二、分类案例教学——
上市公司财务困境预测模型构建

1、要求：
将因财务状况异常而被特别处理的ST公
class y;
run;
③、SAS结果

对两个距离的说明。现在可以得到线行判别函数为：
④、如何建立预测规则
* 指标的判断：正指标还是负指标（正指标）。
* 根据两种误判的损失估计确定合适的临界值
现在根据使两种误判尽可能接近的方法，得到：
临界值：d =
⑤、预测规则：
对每个上市公司计算对应的d，若d＞，则判断其一年后不会陷入财务困境；若d＜，则判断其一年后会陷入财务困境。
⑥、预测准确率检验：
训练样本组检验样本组
ST公司：49/56=% 47/55 = %
非ST公司: 442/504=% 432/504 = %
⑦、讨论
* 判别分析只能运用于离散型因变量预测，而不能运用于连续型因变量预测；
* 建立线性判别准则，需要较强的限制条件——正态分布与等协方差矩阵；
* 临界值的确定需考虑不同误判的损失函数，考虑使用者的风险偏好；
* 使用判别分析方法，需要事先确定预测变量。
* 也可以建立另外形式的预测规则。

练****交换sj1与sj2的地位，建立预测规则，并进行预测准确率检验。或建立其他问题的判别分析预测模型。
2、Logistic回归预测
①、统计学原理
计量经济学中，回归模型具有预测功能，但现在的数据结构为：，因变量为离散变量（虚拟变量），一般的线性回归模型不适用。

Logistic回归模型实际上是概率预测模型，其原理如下：

建立如下形式的线性模型：

则得到概率预测模型
Logistic回归模型为非线性模型，模型的参数估计不能用最小二乘法，而采用极大似然估计法。
②、Logistic回归的SAS程序
proc logistic descending data=；
model y = x1-x6;
run;
③、SAS结果

④、临界值确定与预测规则
临界值:,预测规则:
P＞,一年后上市公司将陷入财务困境;P＜,一年后上市公司不会陷入财务困境.
⑤、预测准确率检验
训练样本组检验样本组
ST公司 46/56=% 44/55=80%
非ST公司 433/504=% 425/504=%
⑥、讨论
* 模型可用于分类预测，也可用于概率预测（如违约率预测）；
* 构建模型时应该避免非随机抽样，否则模型参数估计会产生偏差，特别是在构建概率预测模型时；
* 如果需要采用分层抽样方法，则对参数估计方法应进行调整；
* 事先确定预测变量，否则的话，可以采用逐步回归法。
⑦、逐步回归方法与预测变量选取
预测变量选取是建立分类预测模型的关键步骤。经常的情况是，知道预测变量的大致范围，但不知哪些变量具有较大的信息含量。
利用逐步回归方法，可以在这个范围内挑选出较佳的构建Logistic回归模型的预测变量组。
现在，另外选取了15个可能有用的预测指标y1-y15，对1119家上市公司利用逐步回归法建立预测模型。

⑧、逐步回归的SAS程序
proc logistic descending data=;
model y=y1-y15 / selection=stepwise;
run;
⑨、SAS结果
构建Logistic回归模型的变量为：
y3、y4、y5、y6