文档介绍:多维关联规则挖掘
多维事务数据库DB的结构为(ID,A1,A2,…,An,items) ,Ai是DB中的结构化属性(例如顾客的年龄,职业,收入等),而items是同事务连接的项的集合(例如购物篮中频繁项集)。每一个t=(id,a1,a2,…,an,items-t)由两部分信息组成:维信息(a1,a2,…,an)和项集信息。
挖掘过程分为两部分:挖掘维度信息的模式和从投影的子DB中找出频繁项集。
例如,事务DB如表8-3所示。
首先找出频繁多维值的组合,然后寻找DB中相应的频繁项集。设支持度阈值为2,即属性值的组合出现两次或两次以上为频繁项集,称为多维模式或叫做MD-模式。
要挖掘MD-模式时,可以使用最早由beyer和Ramakrishnan(它是个有效的“冰山立方体”,见下图)开发的改进BUC算法。
BUC算法的基本步骤如下:首先,在第一维(A1)中按值的字母顺序将每个项进行排序。
-模式为(a,*,*),因为只有a值的支持度大于2。其它维的值(*)在第一步不相关,可取任意值。
在DB中选择那些具有MD-模式的项。即T01和T03事务。针对第二维(A2),值1和2,对简化的DB进行再一次排序。没有符合支持度的模式,所以不存在A1和A2值的MD-模式。因此可忽略A2。
在第三维(A3)中按字母顺序进行排序。子集(a,*,m)出现两次,因此它是一个MD-模式。
:只从A2开始,不需要搜索第一维。
第二次迭代从A2开始,MD-模式为(*,2,*), 针对A3,不存在其它MD-模式。最后一次迭代,从A3开始,(*,*,m)为MD-模式.
图8-6是BUC算法对表8-3的处理结果。
找到MD-模式后,下一步对每个MD-模式在MD-投影中挖掘频繁项集。
WEB挖掘
在分布式的信息环境中,文档或对象通常被链接在一起,从而可以起到互相访问的作用。例如,环境,通过工具(如超链接、URL地址)从一个对象转到另一个对象,从而获得有用的信息。WEB是一个超8亿页的超文本的载体,而且信息量还在不断增长。几乎每天要增加100万个页面,而且页面每几个月就会更新一次,因此,每月会有几百G字节的数据在变化。
Web挖掘可以定义为使用数据库挖掘技术在Web文档和服务中自动在发掘并且提取信息。它涉及到整个挖掘的过程,而不仅仅是应用标准的数据挖掘工具。Web挖掘任务划分为4个子任务:
─这是一个从Web上的多媒体资源中在线或离线检索数据的过程。
电子时事通信、电子新闻专线、新闻组以及通过删除HTML标记得到的HTML文档。
─这是在上面的子任务中检索出的不同种类的原始数据的转换过程。
转换过程既可以是一种预处理,比例删除停止字,障碍字等,或者旨在获得所需要的表示法,例如查找在训练主体中的习语,以第一顺序逻辑的形式表示文本等。
─总结是一个在个别Web站点上自动地发掘出综合模式的过程。
本阶段使用了不同的综合目的机器学习、数据挖掘技术和指定的面向Web的方法。
─在这一过程中,执行生效和/或解释已挖掘出模式。
Web挖掘可以基于所挖掘的部分进行分类,分为3类:
─描述从Web文档发掘出有用的信息。
内容包括:文本、图像、音频、视频、元数据以及超链接。