1 / 69
文档名称:

数据分析.ppt

格式:ppt   大小:1,281KB   页数:69页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

数据分析.ppt

上传人:rabbitco 2020/9/4 文件大小:1.25 MB

下载得到文件列表

数据分析.ppt

相关文档

文档介绍

文档介绍:“物以类聚,人以群分”,科学研究在揭示对象特点及其相互作用的过程中,不惜花费时间和精力进行对象分类,以揭示其中相同和不相同的特征。在心理学研究中,经常遇到的分类包括两种情况:一是对研究样本或个案的分类,即根据每个个案的一系列观测指标,将那些在这些观测量方面表现相近的个案归为一类,将那些在这些观测量方面的表现很不相同的个案归为不同类;二是对观测量的分类,即将一系列的观测量归类合并为性质明显不同的少数几个方面。“在生物、经济、社会、人口等领域的研究中,存在着大量量化分类研究。例如:在生物学中,为了研究生物的演变,生物学家需要根据各种生物不同的特征对生物进行分类。在经济研究中,为了研究不同地区城镇居民生活中的收入和消费情况,往往需要划分不同的类型去研究。在地质学中,为了研究矿物勘探,需要根据各种矿石的化学和物理性质和所含化学成分把它们归于不同的矿石类。在人口学研究中,需要构造人口生育分类模式、人口死亡分类状况,以此来研究人口的生育和死亡规律。判别分析和聚类分析是两种不同目的的分类方法,它们所起的作用是不同的。判别分析方法假定组(或类)已事先分好,判别新样品应归属哪一组,对组的事先划分有时也可以通过聚类分析得到。聚类分析方法是按样品(或变量)的数据特征,把相似的样品(或变量)倾向于分在同一类中,把不相似的样品(或变量)倾向于分在不同类中。一、聚类分析的基本原理聚类分析是一种数值分类方法(即完全是根据数据关系)。要进行聚类分析就要首先建立一个由某些事物属性构成的指标体系,或者说是一个变量组合。入选的每个指标必须能刻画事物属性的某个侧面,所有指标组合起来形成一个完备的指标体系,它们互相配合可以共同刻画事物的特征。所谓完备的指标体系,是说入选的指标是充分的,其它任何新增变量对辨别事物差异无显著性贡献。如果所选指标不完备,则导致分类偏差。比如要对家庭教养方式进行分类,就要有描述家庭教育方式的一系列变量,这些变量能够充分地反映不同家庭对子女的教养方式。简单地说,聚类分析的结果取决于变量的选择和变量值获取的两个方面。变量选择越准确、测量越可靠,得到的分类结果越是能描述事物各类间的本质区别。聚类分析完全是根据数据情况来进行的。就一个由n个个案、k个变量组成的数据文件来说,当对个案进行聚类分析时,相当于对k维坐标系中的n个点进行分组,所依据的是它们的距离;当对变量进行聚类分析时,相当于对n维坐标系中的k个点进行分组,所依据的也是点距。所以距离或相似性程度是聚类分析的基础。*总之,聚类分析根据一批样品的许多观测指标,按照一定的数学公式具体地计算一些样品或一些参数(指标)的相似程度,把相似的样品或指标归为一类,把不相似的归为一类。例如对上市公司的经营业绩进行分类;据经济信息和市场行情,客观地对不同商品、不同用户及时地进行分类。又例如当我们对企业的经济效益进行评价时,建立了一个由多个指标组成的指标体系,由于信息的重叠,一些指标之间存在很强的相关性,所以需要将相似的指标聚为一类,从而达到简化指标体系的目的。*思考:样本点之间按什么刻画相似程度思考:样本点和小类之间按什么刻画相似程度思考:、变量测量尺度的类型为了将样本进行分类,就需要研究样品之间的关系;而为了将变量进行分类,就需要研究变量之间的关系。但无论是样品之间的关系,还是变量之间的关系,都是用变量来描述的,变量的类型不同,描述方法也就不同。通常,变量按照测量它们的尺度不同,可以分为三类。2020/9/410