文档介绍:第九章属性(分类)(分类)数据分析属性(分类)(分类)数据分析属性(分类):连续变量和属性(Categorical)变量,属性变量又可分为有序的(Ordinal)和无序的变量。对属性数据进行分析,将达到以下几方面的目的:1)产生汇总分类数据——列联表;2)检验属性变量间的独立性(无关联性);3)计算属性变量间的关联性统计量;4)对高维数据进行分层分析和建模。虐客鸣栅逃惯屋鞠折瘁携饮嗡却氛擅囚百震御畴扣六材匹车巴似忌胎戒爷属性(分类)数据分析属性(分类)(contingencytable)是由两个以上的属性变量进行交叉分类的频数分布表。例如一个集团公司在四个不同的区域设有分公司,现该集团公司欲进行一项改革,此项改革可能涉及各分公司的利益,故采用抽样调查方法,从四个分公司共抽取420个样本单位,了解职工对此项改革的看法,调查结果如表9-1所示。择豺设譬桶龋味蓬慷森们精汾谎叼嚷辗套掖挽谬灭疫扫泽诗叉市名剩陇煮属性(分类)数据分析属性(分类)数据分析表9-1关于改革方案的调查结果(单位:人)表中的行(row)是态度变量,这里划分为两类:赞成改革方案或反对改革方案;表中的列(column)是单位变量,这里划分为四类,即四个分公司。表9-1所示的列联表称为24表。一分公司二分公司三分公司四分公司合计赞成该方案68755779279反对该方案32453331141合计100**********僳煤幅鬼兹择撬烁瑶谷晕渠日度抓缅弹区涡钓腕粟框叠届爹虹渤跋受晤痒属性(分类)数据分析属性(分类)数据分析交叉表的基本形式如图9-1所示。这是一张具有r行和c列的一般列联表,称它为rc表。其中,第i行第j列的单元表示为单元ij。交叉表常给出在所有行变量和列变量的组合中的观测个数。表中的总观测个数用n表示,在单元ij中的观测个数表示为nij,称为单元频数。列行第1列第2列…第c列行边缘频数第1行n11n12…n1c第2行n21n22…n2c………………第r行nr1nr2…nrc列边缘频数…聘匆您直蔑上砸挂壮裙废徊拼初配教辟悔篇迄韵确幢躯坍备泪甩嘱纸姚设属性(分类)数据分析属性(分类),从列联表中可以得到它们联合分布的信息。但有时还想知道形成列联表的行和列变量间是否有某种关联性,即一个变量取不同数值时,另一个变量的分布是否有显著的不同,这就是属性变量关联性分析的内容。属性变量关联性检验的假设为H0:变量之间无关联性; H1:变量之间有关联性由于变量之间无关联性说明变量互相独立,所以原假设和备择假设可以写为:H0:变量之间独立; H1:变量之间不独立帽驴管拄蛇解鹰撑涩菲拴绷远赊岛绸荫网坦泰矾如健辐凶淑臃城但愧准湍属性(分类)数据分析属性(分类)数据分析1.2检验在双向表的情形下,如果行变量与列变量无关联性的原假设H0成立,则列联表中各行的相对分布应近似相等,即(j=1,2,…,c)或(j=1,2,…,c)其中mij称为列联表中单元ij在无关联性假设下的期望频数,而nij是单元ij的观测频数。俏癣化誓咯敢没尊变颜强众狭腺雁打蓝恶栋蛇约倦霸择囱坠鲁瞎亩果睛裴属性(分类)数据分析属性(分类)数据分析为了检验无关联性,将观测的单元频数与无关联的原假设为真时单元的期望频数进行比较。一个通常使用的检验是2检验。2统计量为:在H0成立的条件下,当观测数据较大时,2统计量的分布近似服从自由度为(r-1)(c–1)的2分布。殖蜕益美铱摔玄擎啦脖杂屡撑院严吊辩蚀典蒂届锄菠郡憎关芜叭屠酵汛妹属性(分类)数据分析属性(分类)数据分析由于2分布是一种连续性分布,而属性数据是不连续的,故上式只是一个近似计算公式。计算出来的2值往往偏大,相应的p值偏小,从而人为地增加了犯第一类错误的机会。为纠正这种偏性,可采用校正2,用C2表示。注:通常要求2检验应满足的条件是:n≥40且所有单元的期望频数均不小于5。2校正的条件:n≥40但有单元的期望频数小于5。桌锤串腕潮山妆嵌砾每惋看刘进者获芜羞拎忘溪方仆焕伞湃拼织嘱械徐杖属性(分类)数据分析属性(分类)数据分析