文档介绍：Clementine6(分类1:)
案例一
【流1().str】
本案例数据是Clementine软件自带的一份关于药物研究的数据。以往有大批患有同种疾病的不同病人,在服用五种药物中的一种(Drug,分为DrugA、DrugB、DrugC、DrugX、Drug Y)之后都取得了同样的治疗效果。这里的数据是随机挑选的部分病人服用药物前的基本临床检查数据,包括血压(BP,分为高血压High、正常Normal、低血压Low)、胆固醇(Cholesterol,分为正常Normal和高胆固醇High)、唾液中钠元素(Na)和钾元素(K)含量,以及病人年龄(Age)、性别(Sex,包括男M和女F)等。
现需通过数据分析发现以往处方适用的规律,给出不同临床特征病人更适合服用哪种药物的建议,为未来医生填写处方提供参考。
所建立的数据流如图1-10所示,。
具体分析和操作步骤如下。
第一,读数据到Clementine中。在数据源(Source)选项卡中选择可变文件()节点,并设置节点参数。在文件(File)。
图1-10 药物研究的数据流
第二,浏览数据内容。在输出(Outputs)选项卡中选择表(Table)节点加到数据流中,执行该节点,所生成的数据表名将列在流管理窗口的输出(Outputs)选项卡中,结果如图1-11所示。
图1-11 案例表(Table)节点的输出结果
第三,观察各个变量的数据分布特征。在输出(Outputs)选项卡中选择数据审核(Data Audit)节点加到数据流中,执行该节点,所生成的数据表名将列在流管理窗口的输出(Outputs)选项卡中,如图1-12所示。
图1-12 案例数据审核(Data Audit)节点的输出结果
可以看到,该数据有200个样本,对Age、Na、K这三个数值型变量,计算且输出最小值(Min)、最大值(Max)、均值(Mean)、标准差()、偏态系数(Skewness)等基本描述统计量。数据显示,病人的年龄差距比较大。
同时,输出了各个变量的直方图或柱形图。图形表明,病人中的Age、BP、Cholesterol水平的分布都比较均匀,差异不大,但服用药物DrugY的病人数明显高于服用其他药物人数。
第四,观察服用不同药物的病人唾液中钠钾的含量情况。这里,希望通过散点图反映。在图形(Graph)卡中选择图(Plot)节点加到数据流中,设置节点参数,指定Na为X轴,K为Y轴,服用不同Drug的病人数据采用不同颜色的点,执行该节点,所生成的图形文件名将列在流管理窗口的输出(Outputs)选项卡中,如图1-13所示。

图1-13 案例图(Plot)节点的输出结果
图形显示,服用DrugY的病人,其唾液中的钾含量明显低于其他类病人,但钠含量有的较低有的较高。单纯的钾含量较低的病人选用DrugY应比较理想。
第五,观察服用不同药物病人唾液中钠钾的浓度比例情况。为更准确地评价药物状况,单纯观测钾含量是不全面的,应观测钠与钾的浓度比值指标,它能够更准确反映病肾上腺皮质的功能状态。该指标是原始数据中没有的,应首先计算生成,然后观察其分布特征。在字段选项(Field Ops)卡中选择导出(Derive)节点加到数据流中,设置节点参数指定生成的新变量名为Na/K,计算公式为Na/K。在图形(Graph)选项卡中选择直方图(Histogram)节点,设置节点参数指定绘制Na/K的直方图,且服用不同药物的病人数据采用不同的颜色。执行直方图(Histogram)节点,所生成的图形文件名将列在流管理窗口的输出(Outputs)选项卡,如图1-14所示。
图1-14 案例直方图(Histogram)节点的输出结果
图形显示,针对Na/K值处在高水平的病人,DrugY应是理想的选择。
第六,不同血压特征病人的药物选择。在图形(Graph)选项卡中选择网络(Web)节点加到数据流中,设置节点参数指定绘制关于Drug与BP的网状网络(Web)图,执行网络(Web)节点,所生成的图形文件名将列在流管理窗口的输出(Outputs)选项卡中,如图1-15所示。
图1-15 案例网络(Web)节点的输出结果
网状图通过线条粗细反映病人BP与Drug的取值情况。可以看到,无论血压状况如何,都可以服用DrugY,其三条线的粗细程度差别不大。因此,DrugY对病人的血压没有特殊限定,更具有普遍服用性。在不考虑选择DrugY时,血压高的病人可服用DrugA或DrugB,血压低的病人则应在DrugX和DrugC中选择。
第七,全面分析决定药物选