1 / 18
文档名称:

因子分析︱使用stata做主成分分析.doc

格式:doc   大小:31KB   页数:18页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

因子分析︱使用stata做主成分分析.doc

上传人:xnzct26 2022/2/19 文件大小:31 KB

下载得到文件列表

因子分析︱使用stata做主成分分析.doc

文档介绍

文档介绍:-
. z.
因子分析︱使用Stata做主成分分析
文章来自计量经济学圈
主成分分析
在许多领域的研究与应用中,往往需要对反映事物的多个变量进展大量的观测,收集大量数据足够了,z’轴上的抖动很有可能是噪声,也就是说本来这组数据是有相关性的,噪声的引入,导致了数据不完全相关,但是,这些数据在z’轴上的分布与原点构成的夹角非常小,也就是说在z’轴上有很大的相关性,综合这些考虑,就可以认为数据在*’,y’ 轴上的投影构成了数据的主成分!
课堂上教师谈到的特征选择的问题,其实就是要剔除的特征主要是和类标签无关的特征。而这里的特征很多是和类标签有关的,但里面存在噪声或者冗余。在这种情况下,需要一种特征降维的方法来减少特征数,减少噪音和冗余,减少过度拟合的可能性。
PCA的思想是将n维特征映射到k维上〔k
-
. z.
二、PCA实例现在假设有一组数据如下:行代表了样例,列代表特征,这里有10个样例,每个样例两个特征。可以这样认为,有10篇文档,*是10篇文档中“learn〞出现的TF-IDF,y是10篇文档中“study〞出现的TF-IDF。
第一步,分别求*和y的平均值,然后对于所有的样例,都减去对应的均值。这里*,,则一个样例减去均值后即为〔,〕,得到第二步,求特征协方差矩阵,如果数据是3维,则协方差矩阵是 这里只有*和y,求解得对角线上分别是*和y的方差,非对角线上是协方差。协方差是衡量两个变量同时变化的变化程度。协方差大于0表示*和y假设一个增,另一个也增;小于0表示一个增,一个减。如果x和y是统计独立的,则二者之间的协方差就是0;但是协方差是0,并不能说明x和y是独立的。协方差绝对值越大,两者对彼此的影响越大,反之越小。协方差是没有单位的量,因此,如果同样的两个变量所采用的量纲发生变化,它们的协方差也会产生树枝上的变化。
第三步,求协方差的特征值和特征向量,得到上面是两个特征值,下面是对应的特征向量,,这里的特征向量都归一化为单位向量。
第四步,将特征值按照从大到小的顺序排序,选择其中最大的k个,然后将其对应的k个特征向量分别作为列向量组成特征向量矩阵。这里特征值只有两个,我们选择其中最大的那个,,对应的特征向量是(-, -)T。
-
. z.
第五步,将样本点投影到选取的特征向量上。假设样例数为m,特征数为n,减去均值后的样本矩阵为DataAdjust(m*n),协方差矩阵是n*n,选取的k个特征向量组成的矩阵为EigenVectors(n*k)。则投影后的数据FinalData为FinalData(10*1) = DataAdjust(10*2矩阵) * 特征向量(-, -)T
得到的结果是: 这样,就将原始样例的n维特征变成了k维,这k维就是原始特征在k维上的投影。
上面的数据可以认为是learn和study特征融合为一个新的特征叫做LS特征,该特征根本上代表了这两个特征。上述过程如下列图2描述:正号表示预处理后的样本点,斜着的两条线就分别是正交的特征向量〔由于协方差矩阵是对称的,因此其特征向量正交〕,最后一步的矩阵乘法就是将原始样本点分别往特征向量对应的轴上做投影。
整个PCA过程貌似及其简单,就是求协方差的特征值和特征向量,然后做数据转换。但是有没有觉得很神奇,.
三、PCA推导先看下面这幅图:在第一局部中,我们举了一个学生成绩的例子,里面的数据点是六维的,即每个观测值是6维空间中的一个点。我们希望将6维空间用低维空间表示。
-
. z.
先假定只有二维,即只有两个变量,它们由横坐标和纵坐标所代表;因此每个观测值都有相应于这两个坐标轴的两个坐标值;如果这些数据形成一个椭圆形状的点阵,则这个椭圆有一个长轴和一个短轴。在短轴方向上,数据变化很少;在极端的情况,短轴如果退化成一点,那只有在长轴的方向才能够解释这些点的变化了;这样,由二维到一维的降维就自然完成了。
上图中,u1就是主成分方向,然后在二维空间中取和u1方向正交的方向,就是u2的方向。则n个数据在u1轴的离散程度最大〔方差最大〕,数据在u1上的投影代表了原始数据的绝大局部信息,即使不

最近更新

2025年环境影响评价工程师之环评技术方法题库.. 170页

2025年监理工程师之监理概论题库及参考答案(.. 145页

2025年社区工作者考试试题库含答案(培优) 123页

2025年计算机知识题库含大题附完整答案【精选.. 73页

2025年试验检测师之道路工程题库【完整版】 180页

2025年超星尔雅学习通《劳动通论》章节测试及.. 19页

普通物理学第六版第三章3-4公开课一等奖课件赛.. 22页

社区工作者考试试题库300道【真题汇编】 93页

新人教版数学一年级下册十几减8、7、6ppt课件.. 14页

2025年心理咨询师考试题库500道【实用】 129页

南通市三模语文试题评讲公开课一等奖课件赛课.. 38页

六年级小升初易错字音总复习公开课一等奖课件.. 47页

轻轨工程监理居间合同 7页

高中英语2025届高考核心高频词(共200个) 5页

二零二四版4S店试驾服务客户满意度提升合同 11页

二零二四版企业促销活动服装租赁合同 13页

二零二四版办公楼保洁服务外包合同 15页

二零二四版城市地下空间开发拆迁房屋买卖协议.. 15页

二零二四版房地产营销代理委托合同范本 14页

二零二四版智能电网采购合同风险控制与电力安.. 18页

二零二四版玻璃深加工技术培训服务合同 13页

二零二四版茶叶出口贸易与茶园承包管理合同 16页

二零二四版高新技术企业消防改造工程补充协议.. 16页

全新委托培训服务合同下载2025年通用 11页

医疗器械企业廉洁承诺书(2025版) 14页

合同日文范本(2025版) 15页

固定资产借款合同范本下载2025年通用 13页

作文指导:难忘的一幕 23页

2025美国心肺复苏指南--关键问题和重大更新 5页

2024年重庆市中考物理试卷(B卷)(附答案) 10页