文档介绍:Clementine 关联规则
【流9().str】
Apriori算法的应用示例
这里,利用Clementine提供的超市顾客个人信息和他们的一次购买商品数据,讲解Aprioir算法的具体操作。
,为文本格式文件。数据包括两大部分的内容,第一部分是顾客的个人信息,主要变量有会员卡号(cardid)、消费金额(value)、支付方式(pmethod)、性别(sex)、是否户主(homeown)、年龄(age)、收入(e);第二部分是顾客的一次购买商品的信息,主要变量有果蔬(fruitveg)、鲜肉(freshmeat)、奶制品(dairy)、罐头蔬菜(cannedveg)、罐头肉(cannedmeat)、冷冻食品(frozenmeal)、啤酒(beer)、葡萄酒(wine)、软饮料(softdrink)、鱼(fish)、糖果(confectionery),均为二分类型变量,取值T表示购买,F表示未购买,是一种事实表的数据组织格式。分析目标是哪些商品最有可能同时购买。
通过可变文件()节点读入数据,选择建模(Modeling)卡中的Apriori节点并将其连接到数据流的恰当位置上,右击鼠标,选择弹出菜单中的编辑(Edit)选项进行参数设置,显示的窗口如图9-3(a)所示。
(a)参数设置窗口(b) 模型(Model)选项卡
图9-3 Apriori的参数设置窗口及其模型(Model)选项卡
图9-3 (a)中的具体参数设置如下。
●使用类型节点设置(Use type node settings)表示采用数据流中类型(Type)节点所指定的变量角色建立模型。本例没有设置类型(Type)节点,所以选择使用定制设置(Use Custom settings)选项,表示自行指定建模变量。分别在后项(Consequents)和前项(Antecedents)框中选择关联规则的后项和前项变量。这里要分析连带销售商品,因此所有商品均被选入后项和前项。
●使用事务处理格式(Use transactional format)选项表示,如果数据是按照事务表格式组织的,则应选择该选项。
图9-3 (b)中的具体参数设置如下。
●最低条件支持度(%)[ Minimum antecedents support(%) ]框:指定前项最小支持度,默认为10%;最小规则置信度(%)[ Minimum rule confidence(%)]框:指定规则的最小置信度,默认为80%;最大前项数(Maximum number of antecedents)框:为防止关联规则过于复杂,可指定前项中包含的最大项目数,默认为5。
●仅包含标志变量的真值(Only true values for flags)选项:表示只显示项目(要观察的商品)出现时的规则,而不显示项目不出现时的规则。这里,关心的是商品的连带购买,选择该选项。
图9-4 (a)中的具体参数设置如下。
-=
(b)专家(Expert)选项卡(d)分析结果
图9-4 Apriori的专家(Expert)选项卡及其分析结果
●评估测量(Evaluation measure)选项:选择评