1 / 40
文档名称:

大大数据挖掘算法设计.doc

格式:doc   大小:1,445KB   页数:40页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

大大数据挖掘算法设计.doc

上传人:beny00011 2022/1/5 文件大小:1.41 MB

下载得到文件列表

大大数据挖掘算法设计.doc

文档介绍

文档介绍:word
word
1 / 40
word
大数据挖掘平台算法设计
目录
一.根本统计方法1
二.降维算法〔PCA/SVD〕1
主成分分析〔PCA〕1
奇异值分解〔SVD〕3
三.分类算法4
分类算法根本介绍4
分类算法输入与输出8
四.聚类算法13
聚类算法介绍13
聚类算法的输入17
聚类算法的输出18
五.关联分析算法19
关联分析算法介绍19
关联分析算法的输入20
关联分析算法的输出20

数值预测算法介绍21
数值预测算法的输入24
数值预测算法的输出24
数值预测算法的效果评估25
word
word
3 / 40
word
一.根本统计方法
根本统计方法包括相关分析和假设检验,建模所需数据比拟简单,具体如表1所示。
表1-1 根本统计方法输入输出整理
算法类型
算法名称
输入
输出
输出形式
根本统计方法
相关分析〔Pearson、Spearman〕
各变量的值
〔数值型〕
变量的相关系数
表或图
假设检验〔卡方检验、KS检验〕
各变量的值
〔数值型〕
检验统计量与p值
表或图
二.降维算法〔PCA/SVD〕
〔PCA〕
主成分分析(PCA)是最常用的线性降维方法,它的目标是通过某种线性投影,将高维的数据映射到低维的空间中表示,并期望在所投影的维度上数据的方差最大,以此使用较少的数据维度,同时保存住较多的原数据点的特性。
PCA输入
变量类型:主成分分析的变量类型都是数值型变量
目标变量定义:主成分分析无目标变量〔无因变量〕
PCA输出
主成分分析分析输出包括各主成分得分表,如表1-8所示,第一列为标签变量,X1、X2、X3、X4、X5为建模输入的变量,第一主成分得分、第二主成分得分、第三主成分得分以与主成分综合得分为各主成分的得分。
word
word
3 / 40
word
表 1-2 主成分分析输出结果〔示例〕
样本
X1
X2
X3

X5
第一主成分得分
第二主成分得分
主成分综合
得分
001

002

003

004

主成分分析分析输出还包括各主成分特征值与方差贡献率,如表1-3所示。
表1-3 特征值与方差贡献率
ponent
Initial Eigenvalues
Extraction Sums of Squared Loadings
Rotation Sums of Squared Loadings
Total
% of Variance
Cumulative %
Total
% of Variance
Cumulative %
Total
% of Variance
Cumulative %
1
2
3
主成分分析还包括KMO检验表,判断是否适合做主成分分析,如表1-4所示。
word
word
4 / 40
word
表1-4 KMO and Bartlett's Test
Kaiser-Meyer-Olkin Measure of Sampling Adequacy.
Bartlett's Test of Sphericity
Approx. Chi-Square
df
78
Sig.
.000
主成分分析还包括载荷矩阵,如表1-5所示,可以得出各指标在各主成分的载荷系数。
表1-5载荷矩阵〔示例〕
成长性指标
ponent
.955
.249
.950
.256
.937
.280
.345
.893
.055
〔SVD〕
假设C是M x N矩阵,U是M x M矩阵,其中U的列为CCT的正交特征向量,V为N x N矩阵,其中V的列为CTC的正交特征向量,再假设r为C矩阵的秩,如此存在奇异值分解:
其中CCT和CTC的特征值一样,为
Σ为M X N,其中,其余位置数值为0,的值按大小降序排列。以下是Σ的完整数学定义:
σi称为矩阵