文档介绍：word
word
1 / 40
word
大数据挖掘平台算法设计
目录
一．根本统计方法1
二．降维算法〔PCA/SVD〕1
主成分分析〔PCA〕1
奇异值分解〔SVD〕3
三．分类算法4
分类算法根本介绍4
分类算法输入与输出8
四．聚类算法13
聚类算法介绍13
聚类算法的输入17
聚类算法的输出18
五．关联分析算法19
关联分析算法介绍19
关联分析算法的输入20
关联分析算法的输出20

数值预测算法介绍21
数值预测算法的输入24
数值预测算法的输出24
数值预测算法的效果评估25
word
word
3 / 40
word
一．根本统计方法
根本统计方法包括相关分析和假设检验，建模所需数据比拟简单，具体如表1所示。
表1-1 根本统计方法输入输出整理
算法类型
算法名称
输入
输出
输出形式
根本统计方法
相关分析〔Pearson、Spearman〕
各变量的值
〔数值型〕
变量的相关系数
表或图
假设检验〔卡方检验、KS检验〕
各变量的值
〔数值型〕
检验统计量与p值
表或图
二．降维算法〔PCA/SVD〕
〔PCA〕
主成分分析(PCA)是最常用的线性降维方法，它的目标是通过某种线性投影，将高维的数据映射到低维的空间中表示，并期望在所投影的维度上数据的方差最大，以此使用较少的数据维度，同时保存住较多的原数据点的特性。
PCA输入
变量类型：主成分分析的变量类型都是数值型变量
目标变量定义：主成分分析无目标变量〔无因变量〕
PCA输出
主成分分析分析输出包括各主成分得分表，如表1-8所示，第一列为标签变量，X1、X2、X3、X4、X5为建模输入的变量，第一主成分得分、第二主成分得分、第三主成分得分以与主成分综合得分为各主成分的得分。
word
word
3 / 40
word
表 1-2 主成分分析输出结果〔示例〕
样本
X1
X2
X3
…
X5
第一主成分得分
第二主成分得分
主成分综合
得分
001
…
002
…
003
…
004
…
主成分分析分析输出还包括各主成分特征值与方差贡献率，如表1-3所示。
表1-3 特征值与方差贡献率
ponent
Initial Eigenvalues
Extraction Sums of Squared Loadings
Rotation Sums of Squared Loadings
Total
% of Variance
Cumulative %
Total
% of Variance
Cumulative %
Total
% of Variance
Cumulative %
1
2
3
主成分分析还包括KMO检验表，判断是否适合做主成分分析，如表1-4所示。
word
word
4 / 40
word
表1-4 KMO and Bartlett's Test
Kaiser-Meyer-Olkin Measure of Sampling Adequacy.
Bartlett's Test of Sphericity
Approx. Chi-Square
df
78
Sig.
.000
主成分分析还包括载荷矩阵，如表1-5所示，可以得出各指标在各主成分的载荷系数。
表1-5载荷矩阵〔示例〕
成长性指标
ponent
.955
.249
.950
.256
.937
.280
.345
.893
.055
〔SVD〕
假设C是M x N矩阵，U是M x M矩阵，其中U的列为CCT的正交特征向量，V为N x N矩阵，其中V的列为CTC的正交特征向量，再假设r为C矩阵的秩，如此存在奇异值分解：
其中CCT和CTC的特征值一样，为
Σ为M X N，其中，其余位置数值为0，的值按大小降序排列。以下是Σ的完整数学定义：
σi称为矩阵