1 / 26
文档名称:

大数据挖掘算法设计.doc

格式:doc   大小:971KB   页数:26页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

大数据挖掘算法设计.doc

上传人:fyyouxi23 2020/7/5 文件大小:971 KB

下载得到文件列表

大数据挖掘算法设计.doc

文档介绍

文档介绍:(PCA/SVD) (PCA) (SVD) ,建模所需数据比较简单,具体如表1所示。表1-1基本统计方法输入输出整理算法类型算法名称输入输出输出形式基本统计方法相关分析(Pearson、Spearman)各变量的值(数值型)变量的相关系数表或图假设检验(卡方检验、KS检验)各变量的值(数值型)(PCA/SVD)(PCA)主成分分析(PCA)是最常用的线性降维方法,它的目标是通过某种线性投影,将高维的数据映射到低维的空间中表示,并期望在所投影的维度上数据的方差最大,以此使用较少的数据维度,同时保留住较多的原数据点的特性。:主成分分析的变量类型都是数值型变量目标变量定义:主成分分析无目标变量(无因变量),如表1-8所示,第一列为标签变量,X1、X2、X3、X4、X5为建模输入的变量,第一主成分得分、第二主成分得分、第三主成分得分以及主成分综合得分为各主成分的得分。表1-2主成分分析输出结果(示例)样本X1X2X3……….**********.…--…-,如表1-3所示。表1-ponentInitialEigenvaluesExtractionSumsofSquaredLoadingsRotationSumsofSquaredLoadingsTotal%ofVarianceCumulative%Total%ofVarianceCumulative%Total%ofVarianceCumulative%,判断是否适合做主成分分析,如表1-4所示。表1-4KMOandBartlett'sTestKaiser-Meyer-'-..000主成分分析还包括载荷矩阵,如表1-5所示,可以得出各指标在各主成分的载荷系数。表1-5载荷矩阵(示例)-.003-.065-.-.019-.073-.-.042-.080-.-.032-.(SVD)假设C是MxN矩阵,U是MxM矩阵,其中U的列为的正交特征向量,V为NxN矩阵,其中V的列为的正交特征向量,再假设r为C矩阵的秩,则存在奇异值分解:其中和的特征值相同,为Σ为MXN,其中,其余位置数值为0,的值按大小降序排列。以下是Σ的完整数学定义:σi称为矩阵C的奇异值。SVD常用于潜在语义分析,作为文本数值转化后的计算模型。:SVD分解的输入变量都是数值型变量目标变量定义:SVD分解无目标变量(无因变量):SVD分解的输出包括三部分:U矩阵、Σ(奇异值对角阵或奇异值)和V(V矩阵或V的转置矩阵)。SVD的分解如图1所示,图1-(Decisiontree)是用于对数据进行分类和预测的主