文档介绍:20世纪统计学的回顾与展望
张南
关键词:统计学;信息科学;金融工程;极值统计学
一、20世纪统计学的发展
按照统计学科体系的基本原理与应用的不同,统计学可分为理论统计学与应用统计学两大类。理论统计学指的是统计学的数学性原理,也就是数理统计学,具有通用方法论的理学性质。应用统计学指的是基于理论统计学的基本原理,应用于各个领域的数据处理方法,统计解析方法及统计推测方法。其特征有二:一是其数理性原理为各研究领域通用;二是具有对应于某特定领域的特有的分析方法。比如经济统计学中的指数分析法,医药统计学中的生存解析法等。
理论统计学的基础理论在20世纪的20-30年代已经基本完成。其中由英国统计学家费舍(,1890-1962)所确立的统计推测理论,样本分布理论,试验计划法及F分布理论对奠定20世纪统计学的基础理论作出了很大的贡献。
40-50年代对统计学来说是分布理论的时代。以概率分布的形式成功地将各种随机现象的数量特征、性质加以归纳、描述。
60年代是分布偏差有效(Robust)推定理论盛行的时代。即采用古典的方法论成功地解决了概率分布的假定与实际数据分布偏离的问题。但是,其研究所假定的概率模型侧重于数学形式的完整可能,而对数据所遵从的概率分布的拟合准确性的考虑尚有欠缺。在以后的系统控制论中,分布偏差有效理论起到了很大的作用。
70年代可以认为是规范化线性模型的时代。自德国统计学家高斯(,1777一1855)创立误差与正态分布理论及最小二乘法以来,在70年代,从正态分布的假定,发展到将共变量的条件分布线性模型化。其方法论的核心是剔除正态性的假定,实现了包括从二项分布到咖码分布的规范线性化。此理论与概率随机过程理论相结合,促成了对医学数据可进行深入考察的生存解析法的产生。从分布的假定与数据的偏差这种关系来看,规范化线性模型理论与60年代的分布偏差有效理论是从不同的角度对推定统计量进行的研究。
80年代的前期侧重于渐进理论的研究,高次渐进性理论运用高等数学公式推导出了复杂的展开式,对高次渐进的有效性与充分性进行了探讨。以往很多都是固定模型的次元,在样本容量极限的条件下研究其确定的变动,结果失去了许多有用的信息。之后作为改进,在决定理论的结构中用有限的样本进行更为严密的考察。但由于理论设计忽视了分布模型与数据的吻合,出现了即使模型与实际的拟合受到影响也要一味追求模型近似的精确度等问题,使得为此所进行的较严密的计算并没有多大的实际意义。由此可见,如果数据的分布是在模型之外,单纯依靠数学性的推导是不能指望这种理论会有何应用价值的。在这一方面理论统计学有它的局限性,数理统计学所具有的本质弱点也正在于此。80年代后期统计学对计算机的利用引人瞩目,如数据模拟(Bootstrap),回归变量的推定等非参数估计的方法应运而生。与此同期可称为统计学一大成果的,还有通过运用在70年代开发出来的标准信息量,交差检验法,缩小法等,使得平滑化法的拟合有了很大的改进。
90年代对"复杂性"研究较为瞩目。这对90年代的一些技术性方法的研究起到了理论先导的作用。其中,特别是对马尔可夫链蒙特卡尔理论(Markov chain Monte Carlo:MCMC)的研究对建立可实际应用的统计模型开辟了广阔的前景。90年代以来,很多应用问题都存