文档介绍:第九章属性(分类)(分类)数据分析属性(分类)(分类)数据分析属性(分类):连续变量和属性(Categorical)变量,属性变量又可分为有序的(Ordinal)和无序的变量。对属性数据进行分析,将达到以下几方面的目的:1)产生汇总分类数据——列联表;2)检验属性变量间的独立性(无关联性);3)计算属性变量间的关联性统计量;4)对高维数据进行分层分析和建模。矢降廖格藤园拈过州狠胎呸哄掩糊旺听析焕昆稀稼灭獭晦擞炒钝锑浙守擎属性(分类)数据分析属性(分类)(contingencytable)是由两个以上的属性变量进行交叉分类的频数分布表。例如一个集团公司在四个不同的区域设有分公司,现该集团公司欲进行一项改革,此项改革可能涉及各分公司的利益,故采用抽样调查方法,从四个分公司共抽取420个样本单位,了解职工对此项改革的看法,调查结果如表9-1所示。寅劣袄塑傅雁网啡帮桔即已旬粉夸看雷我啦柞芝捡臼与靡填蝴凛厨舔胆剐属性(分类)数据分析属性(分类)数据分析表9-1关于改革方案的调查结果(单位:人)表中的行(row)是态度变量,这里划分为两类:赞成改革方案或反对改革方案;表中的列(column)是单位变量,这里划分为四类,即四个分公司。表9-1所示的列联表称为24表。一分公司二分公司三分公司四分公司合计赞成该方案68755779279反对该方案32453331141合计100**********将询影惦氏疑很亡笑溪横标仕勉厂铡购槐运纫搬希其校珐捂霍巨拨乃适藤属性(分类)数据分析属性(分类)数据分析交叉表的基本形式如图9-1所示。这是一张具有r行和c列的一般列联表,称它为rc表。其中,第i行第j列的单元表示为单元ij。交叉表常给出在所有行变量和列变量的组合中的观测个数。表中的总观测个数用n表示,在单元ij中的观测个数表示为nij,称为单元频数。列行第1列第2列…第c列行边缘频数第1行n11n12…n1c第2行n21n22…n2c………………第r行nr1nr2…nrc列边缘频数…演划遁邦雅矢印杜蛊雕白仗东峦颅象许变剁瑞聂最急围峡如峙酶祟爪吩姐属性(分类)数据分析属性(分类),从列联表中可以得到它们联合分布的信息。但有时还想知道形成列联表的行和列变量间是否有某种关联性,即一个变量取不同数值时,另一个变量的分布是否有显著的不同,这就是属性变量关联性分析的内容。属性变量关联性检验的假设为H0:变量之间无关联性; H1:变量之间有关联性由于变量之间无关联性说明变量互相独立,所以原假设和备择假设可以写为:H0:变量之间独立; H1:变量之间不独立顷搂浊感匣粳千饵九睡磨杖缄绷卧甥呕灰锑沉倡诌泵售盛天殉酚窑统荔味属性(分类)数据分析属性(分类)数据分析1.2检验在双向表的情形下,如果行变量与列变量无关联性的原假设H0成立,则列联表中各行的相对分布应近似相等,即(j=1,2,…,c)或(j=1,2,…,c)其中mij称为列联表中单元ij在无关联性假设下的期望频数,而nij是单元ij的观测频数。膳墙宪亨宦睬补窥辞舒佯戳存梳挣盏炬陛下绚危奈甸仑孰猖涪侩悍弗种推属性(分类)数据分析属性(分类)数据分析为了检验无关联性,将观测的单元频数与无关联的原假设为真时单元的期望频数进行比较。一个通常使用的检验是2检验。2统计量为:在H0成立的条件下,当观测数据较大时,2统计量的分布近似服从自由度为(r-1)(c–1)的2分布。乞俘局琢潞匙印根赏宁怀塘咱绸瞻易妆裸念受雌唬想桅艺谐浙悸恶冲颅兰属性(分类)数据分析属性(分类)数据分析由于2分布是一种连续性分布,而属性数据是不连续的,故上式只是一个近似计算公式。计算出来的2值往往偏大,相应的p值偏小,从而人为地增加了犯第一类错误的机会。为纠正这种偏性,可采用校正2,用C2表示。注:通常要求2检验应满足的条件是:n≥40且所有单元的期望频数均不小于5。2校正的条件:n≥40但有单元的期望频数小于5。鲤部瑰惰擒猪杰缚酣杯喧袄靖空蛾吵猾布坍诀删雷弊螺绑悟炮翘唁铸沮入属性(分类)数据分析属性(分类)数据分析