文档介绍:Clementine 多模型联合建模
<comes from :SPSS 中文版教程 >
一、二元目标自动建模
对客户响应简模(二元分类器)【】
通过二元分类器节点,您可以自动创建和比较大量结果为二元(是或否)的不同模型,例如某个客户是否很可能拖欠贷款或者是否会对特定的报价做出响应。通过一个相对简单的流,您可以生成一组候选模型并对它们进行排序,选择最有效的模型,然后使用整体节点将它们合并为一个汇总模型。此方法将自动化操作的方便性与组合多个模型的优势融为一体,从而产生任何单一模型所不能带来的更为准确的预测。
本示例以某公司为例,该公司希望通过为每个客户提供最适用的报价以获取更丰厚的收益。所使用的数据文件为 。
文件 的历史数据可跟踪过去的营销活动中为特定客户提供的报价,由 campaign 字段的值表示。Premium account 活动中的记录数最大。campaign 字段的值在数据中实际编码为整数,并带有类型节点中定义的标签(例如 2 = Premium account 保险费账户)。
此文件还包含一个响应字段response,该字段表明所提供的报价是否被接受(0 = 否,1 = 是)。这将是您希望预测的目标字段或值。
此外,其中还包括若干包含每位客户的相关人口统计和财务信息的字段。这些字段可用于构建或“训练”一个可基于类似收入、年龄或每月交易次数等特征预测单个用户或用户群响应率的模型。
构建流
添加指向 的 SPSS 源节点。(您可以在文件路径中指定$CLEO_DEMOS/ 作为引用此文件夹的快捷方式。请注意,路径中必须使用正斜线而非反斜线,如上文所示。)见下图。
添加类型节点,然后选择响应作为目标字段(“方向”为输出)。将此字段的“类型”设置为标志。对于以下字段,应将“方向”设置为无:customer_id、campaign、response_date、purchase、purchase_date、product_id、Rowid 和 X_random。当您构建模型时,将忽略这些字段。单击类型节点的读取值按钮以确保值获得实例化。(说明,也可以直接使用SPSS 源节点实现上述设置,不用添加类型节点。见下图。)
尽管数据包含有关四项不同活动的信息,但每一次的分析应集中关注其中一项活动。由于 Premium conditions 活动(在数据中编码为 campaign=2)中的记录数最大,因此可以使用选择节点实现仅在流中包含这些记录。见下图。
附加一个二元分类器节点,然后选择总体精确性作为对模型进行排序的度量。见下图。
在“专家”选项卡上,取消选中判别式和 SVM 模型类型。(这些模型需要花费更多时间培训这些数据,因此取消选中它们将可以加快示例的执行速度。如果不介意等待一至两分钟,也可以保留它们的选中状态。)节点将为每个剩余的算法估计一个模型,总共要估计八个模型。见下图。
执行后显示一个报告,其中列出了运行期间每个评估模型的详细信息。浏览结果并为希望使用或进一步探索的任意模型生成建模节点、模型块或评估图表。见下图。
默认情况下,模型会基于总体精确性排序,因为这是在二元分类器节点中选择的度量。根据这一度量,C51() 模型的精确性最高,但其他多个模型的精确性与之相差不大。可以通过单击其他列的标题对该列进行排序,或者也可以从工具栏的排序方式下拉列表中选择所需的度量。
根据这些结果,生成三个准确性最高的模型,将它们添加到流中,然后使用整体节点将它们组合到一起。通过结合多个模型的预测,可以避免单个模型的局限性,从而使整体准确性更高。
在“生成”列中选择“C51”、“C&R 树”和“神经网络”模型,然后从菜单中选择: 生成。将模型添加至选项板。
生成的模型块将添加到窗口右上角的“模型”选项板中,可以在此浏览它们、将它们添加到流中,或者采用多种其他方式保存或部署它们。见下图。
依次右键单击每个模型以将其添加到流中。见下图。
将这三个模型块附加到选择节点,在附加了二元分类器节点的点上对流进行分支操作。在第三个模型之后附加一个整体节点(“字段选项”选项板)。见下图。
在整体节点中,选择响应作为目标字段,并且确保未选中过滤出整体模型生成的字段。这样就可以将每个单独模型的得分与合并的整体得分进行比较。见下图。
对于整体方法,请选择置信度加权投票。此选项确定如何为每条记录生成一个汇总得分。使用简单投票方式时,若三个模型中有两个模型均预测是,则是将以 2 比 1 的