文档介绍：样本组织3种方法 随机分组法:样本量大用随机分组法,把2/3样本作为学****样本构建模型,剩余1/3作为测试样本,测试模型性能。K折交叉验证法:样本量不多,交叉分组分为K组,依次从K组数据中选1组作为测试样本,其余9组作为学****样本。留一法:样本量很少,留1例作为测试样本,其余作为学****样本,依次循环。关于数据预处理二值型数据(是否归一化变成0或1)(如胃癌分期等)数值型就是血压,心率之类具体数据对数值型数据进行归一化,就是要让数值都变化在【0,1】比较大数值:常用几种十进计数法,用于比较大数值,分散又比较开,可以直接把这些数值除以10整次幂(就是10平方,三次方之类)对于数据不多且数值不大:可以采用最小-最大归一法:把取值范围定在[0,1],就可简化公式为:新值=(原值-原min)/(原max-原min)这样处理以后 数据中最大值变为1 最小值变为0Z分数归一法:新值=(原值-均值)/标准差此法主要用于原始数据取值范围无法知道或原始数据中最大值或最小值与均值偏离很大最后一种对数归一法:直接计算器In原值就出来新值了,对数归一法对原始数据压缩后不引起信息损失比较性能四格六格表:灵敏度、特异度、正确率与ROC曲线。要把提供6格表合并为4格表回归分类 决策树模型表达规则三种模型比较性能:分别是logistic回归 决策树 :(手术/手术+化疗)及预后(五年生存)共5万个样本,?,其中315个五年内死亡如何组织数据?,14个5年内死亡,35个存活如何组织数据?假设:1,0000例样本中,1000例生存期小于5年,9000例生存期大于5年。问题:如何分配样本数据?2:1兼顾总体分布随机分组若有1000例样本数据,现进行10-折交叉验证每次训练样本量是多少?10次训练模型是否存在差异?最终模型是什么?模型性能参数如何选取??、K-折交叉验证、留一法,分别对于样本总体数据要求是否有定律?,需要兼顾总体分布一致性,是依据模型结果分还是依据模型原因分配?为了建立肺癌5年生存率预后模型。收集了5,0000条数据,其中:1,7000个病例在手术后5年内死于肺癌。对于该样本数据,应如何组织?若病例数量收集总计为1000例,其中:315例5年内死亡,685例存活。则数据如何组织?若上述病例只有49例,其中:14例5年内死亡,35例存活。该如何组织?为了建立肺癌5年生存率预后模型。收集样本总计为1000例,其中:315例5年内死亡,685例存活。分别针对下列情况,该样本数据,应如何组织?以“病理分级”、“手术状态”、“是否化疗”等3项特征属性建立数据挖掘模型。以“病理分级”、“手术状态”、“是否化疗”、“性别”、“年龄”、“婚否”、“是否吸烟”、“是否有家族史”、“职业”、“CT影像结论”、“以往病史”、“每天运动量”、“情绪反应及心理状态”、“其他用药记录”等15项特征属性建立数据挖掘模型。预测型模型性能评价 分类/预测阳性分类/预测阴性实际阳性TPFN实际阴性FPTN灵敏度=TP/TP+FN特异度=TN/TN+FP分类正确率=TP+TN/TP+TN+FP+FN例:ECG(electrocardiogram)诊断试验结果心肌梗塞ECG诊断结果合计阳性阴性出现不出现合计416(TP)104(FN)5209(FP)171(TN)180425275700(N)灵敏度=?特异度=?分类正确率=?,干预及预后(五年生存)共5万个样本,,5年内死于肺癌,。假定对上述数据分别建立了预测型模型A与B,试比较两个模型性能。模型A 预测为死亡预测为生存 实际死亡例数13940306017000实际生存例数66002640033000   50000模型B 预测为死亡预测为生存 实际死亡例数12470453017000实际生存例数51302787033000   50000比较模型A与B: %%%%%%:模型A与模型B,哪个更优?假设一种干预方法,预后为二种状态,共采集5万条样本,以生存率5年为评判标准,其中17000例5年内死于此病。现测试结果如下::灵敏度、特异度、正确率。?假设前一结果为模型A测试结果,现用模型B,学****样本/测试样本是相同,其结果为:如何比较模型A与B性能?