文档介绍:该【教材配套教学——统计技术 】是由【zhilebei】上传分享,文档一共【24】页,该文档可以免费在线阅读,需要了解更多关于【教材配套教学——统计技术 】的内容,可以使用淘豆网的站内搜索功能,选择自己适合的文档,以下文字是截取该文章内的部分文字,如需要获得完整电子版,请下载此文档到您的设备,方便您编辑和打印。本章目标
25 二月 2025
第1页,共25页
回归分析
掌握线性回归分析方法
了解非线性回归
了解树回归
贝叶斯分析
掌握贝叶斯分析方法
掌握使用Weka建立贝叶斯分类器的方法
聚类技术
了解分层聚类技术——凝聚聚类和Cobweb聚类
了解模型聚类技术E——M算法
了解数据挖掘中的统计技术与机器学习技术
回归分析
回归分析(Regression Analysis)
一种统计分析方法
用来确定两个或两个以上变量之间的定量的依赖关系,并建立一个数学方程作为数学模型,来概化一组数值数据,进而进行数值数据的估值和预测,应用非常广泛。
一元回归分析和多元回归分析
线性回归分析和非线性回归分析
25 二月 2025
第3页,共25页
其中
是自变量,
是因变量
和c是常量。
25 二月 2025
第4页,共25页
线性回归方程的格式
1、简单线性回归(Simple Linear Regression)
只有一个自变量作为因变量的预测。
典型的斜截式(Slope-Intercept Form)方程。
25 二月 2025
第5页,共25页
简单线性回归格式
y = ax + c
其中
X——自变量,y——因变量,a和c——常量;
方程的图形是斜率为a,y轴截距为c的一条直线。
常量a和c的确定,是建立回归方程的重要工作,称为参数估计(Parametric Estimating)。
常用的计算a和b的统计学方法是最小二乘法(Least-Squares Criterion)。
最小二乘法
又称最小平方法。
通过使得因变量预测值与实际值之间的误差的平方和(方差)最小,而得出a和c的最优解。
【】
给出一组x,y值,。将x作为自变量,y作为因变量,应用最小二乘法计算a和c的值,建立简单回归方程。
使用MS Excel建立线性回归方程
x
y
1
3
4
7
2
6
3
8
25 二月 2025
第7页,共25页
一组x,y值
使用最小二乘法
要使得y的计算值与实际值之间的方差(误差平方和)()最小。
分别对a和c求偏导,再使两个偏导数为0(式 )。
25 二月 2025
第8页,共25页
()
偏导计算结果——
60a+20c-134=0,20a+8c-48=0
解方程组,得到——
a=,b=
()
2、多元线性回归(Multivariable Linear Regression)
有两个或两个以上的自变量的线性回归
由多个自变量的最优组合共同来预测或估计因变量,结果更有效、更准确,更符合实际需要。
25 二月 2025
第9页,共25页
其中
是自变量,
是因变量
和c是常量, 又称回归系数 。
多元线性回归方程
3、实验:使用Excel和Weka进行多元线性回归
使用Excel帮助文档中的LINEST函数指南实例数据集——“办公楼”数据集()和Excel的LINEST函数建立多元线性回归方程,为某办公楼估值。
使用办公楼数据集和Weka软件的建立多元线性回归模型,为某办公楼估值。
25 二月 2025
第10页,共25页
Excel帮助文档中的办公楼数据集
Space(x1)
Offices(x2)
Entrances(x3)
Age(x4)
Value
2310
2
2
20
142000
2333
2
2
12
144000
2356
3
33
151000
2379
3
2
43
150000
2402
2
3
53
139000
2425
4
2
23
169000
2448
2
99
126000
2471
2
2
34
142900
2494
3
3
23
163000
2517
4
4
55
169000
2540
2
3
22
149000