文档介绍:金融数据挖掘
第1页,共29页,2022年,5月20日,22点35分,星期三
第一章:概论
一、何为数据挖掘(data mining)
现代信息社会的特征:信息(数据)泛滥、知识缺乏,如何从海量数据(广 * 防信用卡诈骗预警系统
* 银行客户关系管理
* 税务稽核
3、数据来源:CSMAR数据库
1990-2004 资产负债表、损益表,
1990-1997 财务状况变动表
1998-2004 现金流量表
4、报表变动情况:
1994年合并会计报表
1998年资产减值准备
第9页,共29页,2022年,5月20日,22点35分,星期三
5、研究所需数据
①、预测变量选取——实践经验、其他文献使用的预测变量、采用技术手段(统计技术、数据挖掘技术)选取预测变量、在一定理论指导下构造新的预测变量;
②、样本数据的结构形式
③、采集样本数据时应注意的问题
* 尽量采用跨年度数据
* 需要删除的数据
* 尽量不采用配对抽样
④、随机构造的训练样本组与检验样本组(过度拟合现象)
第10页,共29页,2022年,5月20日,22点35分,星期三
⑤、本案例的数据说明(sj0):
* 1995年底前上市的公司;
* 删除其他原因被特别处理的公司;
* 数据跨期1996-2001,分别预测1998-2003;
* 删除在预测年度已陷入财务困境的公司;
* 共有非ST公司数据1008个,ST公司数据111个;
* 采用的6个预测变量为(第一种方法):
总负债/总资产、主营业务收入/总资产、总利润/总资产、(货币资金+短期投资净额)/流动资产、留存盈余/总资产、总资产的自然对数。
第11页,共29页,2022年,5月20日,22点35分,星期三
⑥、随机抽样构造训练样本组、检验样本组的SAS方法:
* 将EXCEL数据库转为SAS数据库;
* SAS随机数函数——uniform(seed),随机种子数seed取奇数,产生[0,1]区间上的一个随机数
* 随机建立训练样本组、检验样本组的SAS程序
# data a;
set ;
k=uniform(15);
run;
# 对已进行k排序的数据库a
data b;
set a;
m=int(_n_/2);
run; (sj1,sj2)
第12页,共29页,2022年,5月20日,22点35分,星期三
二、构造分类预测模型的方法
1、判别分析法
①、判别分析方法的统计学原理
假设有两个总体——财务困境公司与财务正常公司,每个总体都可以用一个六维随机变量 表示,不同的总体分布不同。预测上市公司是否会陷入财务困境,就是判断这个公司所对应的样本属于哪个总体。
判别分析是利用距离(相似程度的体现)来判断样本的归属。较常用的距离度量是马氏距离: ,判别分析实际上是利用距离差: 为判断指标来判断样本的归属。
由于马氏距离为一个二次型,因此当 时,距离差也会一个二次型,这样在计算时较复杂,如果 ,且两个总体均服从正态分布,则距离差为一个线性函数(线性判别函数),可利用这个线性函数建立预测规则。
第13页,共29页,2022年,5月20日,22点35分,星期三
第14页,共29页,2022年,5月20日,22点35分,星期三
②、判别分析的SAS程序:
proc discrim data=;
class y;
run;
③、SAS结果
对两个距离的说明。现在可以得到线行判别函数