1 / 78
文档名称:

数据仓库9.ppt

格式:ppt   大小:271KB   页数:78页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

数据仓库9.ppt

上传人:cby201601 2017/12/25 文件大小:271 KB

下载得到文件列表

数据仓库9.ppt

相关文档

文档介绍

文档介绍:第9章
公式发现
目录



公式发现概述
在科学发展史上,各种物理学、化学、天文学中的自然规律都是著名科学家对大量的实验数据进行深入的研究,最后得到了自然规律。
如牛顿三大定律、万有引力定律、开普勒行星运行定律等。这些自然定律是科学发展和社会进步的奠基石。
在大量的工程问题中,同样存在着大量的实验数据需要人们去寻找它们的规律性。
在找到完全精确的规律性之前,一般用经验性规律(带有一定的误差)来代替,去完成工程计算、设计和施工。
经验规律的发现一般是由有经验的工程师来完成的。
随着计算机的出现,发展了数据拟合技术。它是数值计算的重要分枝。数据拟合是利用科学试验中得出的大量测量数据,去求得自变量和因变量的一个近似公式。
数据拟合任务:从科学试验中得到的大量测试数据,(例如N个(xi,yi)),去求得自变量x和因变量y的一个近似解析表达式
y=f(x)
这种公式统一表示为代数多项式形式,它的系数由最小二乘原理建立正规方程组求出。
存在问题:当它的次数增大时,使线性方程组系数行列式出现“病态”(即行列式元素微小变化引起解的大变化)。
有效方法:采用正交多项式的方法来逼近试验数据,使逼近公式的效果大为提高。(如勒让德多项式)
数据拟合方法
在科学试验或统计研究中,人们常常需要从一组测定的数据。
已知N个点(xi,yi)去求得自变量x和因变量y的一个近似表达式:
y=φ(x)
这就是数据拟合问题。根据数据之间的关系给出它们之间的数学公式有:
y*=a0+a1*φ1(x)+a2*φ2(x)+…+ak*φk(x)
在曲线拟合中,一般取
φk(x) =xk 或者正交多项式
总之,y的表达式是多项式形式。
其中a0、a1、a2…ak各个系数的确定常用的是最小二乘法,即使各点的误差平方和最小:
Σ(y-y*)2= Σ(y-(a0+a1*φ1(x)+a2*φ2(x)+…+ak*φk(x))2= min
选择a0、a1、a2…ak使误差平方和最小,可以用数学分析中求极值方法,即函数φ(a0,a1,a2…,ak)对a0、a1、a2…ak求偏微商,再使偏微商等于零,得到a0、a1、a2…ak应满足的方程:
求得这组方程的解{ai},即可得拟合公式。
用多项式作逼近公式:
数据拟合方法虽然能解决一些实际问题,但是它把寻找公式的范围限制在多项式形式之内。
正交多项式一般表示都很复杂,如勒让德多项式。这对使用者来说很不直观,建立不起各个变量之间的直观概念。

缺点:公式不直观