文档介绍：第7章 Web 挖掘
Web挖掘的分类及其数据来源
Web日志挖掘
Web内容挖掘
Web挖掘的分类及其数据来源
Web挖掘的分类
根据对Web数据的感兴趣程度的不同, Web挖掘一般可以分为三类:Web内容挖掘(Web Content Mining)、 Web结构挖掘(Web Structure Mining)、Web使用挖掘(Web Usage Mining)。
Web挖掘的分类如图7-1所示。
图7-1 Web挖掘的分类
1. Web内容挖掘
Web内容挖掘是指对Web页面内容进行挖掘,从Web文档的内容信息中抽取知识。Web内容挖掘的对象包括文本、图像、音频、视频、多媒体和其他各种类型的数据。 Web内容挖掘的重点是文本的特征、分类和聚类。 Web挖掘的一个研究热点是针对无结构化文本进行的文本挖掘; Web多媒体数据挖掘正成为另一个研究热点。
Web内容挖掘一般从两个不同的观点来进行研究。从资源查找(IR)的观点来看, Web内容挖掘的任务是从用户的角度出发, 提高信息质量和帮助用户过滤信息。这里的非结构化文档主要指Web上的自由文本, 包括小说、新闻等。而从数据库(DB)的观点来看, Web内容挖掘的任务主要是试图对Web上的数据进行集成、建模, 以支持对Web数据的复杂查询。数据库技术应用于Web挖掘主要是为了解决Web信息的管理和查询问题。这些问题可以分为三类: Web信息的建模和查询、信息抽取与集成、 Web站点建构和重构。
2. Web结构挖掘
Web结构挖掘主要是通过对Web站点的超链接结构进行分析、变形和归纳,将Web页面进行分类,以利于信息的搜索。Web结构挖掘可用于发现Web的结构和页面的结构及其蕴含在这些结构中的有用模式;对页面及其链接进行分类和聚类,找出权威页面;发现Web文档自身的结构,这种结构挖掘能更有助于用户的浏览,也利于对网页进行比较和系统化。Web结构挖掘可细分为超链接挖掘、 URL挖掘和内部结构挖掘三种。
Web结构挖掘在一定程度上得益于社会网络和引用分析的研究。 ing连接和outgoing连接, 运用引用分析方法找到同一网站内部以及不同网站之间的连接关系。在Web结构挖掘领域最著名的算法是HITS算法和PageRank算法。它们的共同点是使用一定方法计算Web页面之间超链接的质量, 从而得到页面的权重。著名的Clever和Google搜索引擎就采用了该类算法。
此外, Web结构挖掘的另一个尝试是在Web数据仓库环境下的挖掘, 包括通过检查同一台服务器上的本地连接衡量Web结构挖掘Web站点的完全性,在不同的Web数据仓库中检查副本以帮助定位镜像站点,通过发现针对某一特定领域超链接的层次属性去探索信息流动如何影响Web站点的设计。
3. Web使用挖掘(Web usage Mining)
Web使用挖掘即Web使用记录挖掘, 是数据挖掘技术在Web使用数据上的应用。利用Web使用挖掘技术,可以通过Web缓存改进系统设计、 Web页面预取、 Web页面交换;认识Web信息访问的本质;理解用户的反映和动机。例如,有些研究提出了可适应站点的概念,即可以通过用户访问模式的学****改进其自身的Web站点。这些分析还有助于建立针对个体的个性化Web服务。Web使用挖掘在新兴的电子商务领域有重要意义,例如可以识别用户的忠实度、喜好、满意度,可以发现潜在用户,增强站点的服务竞争力。
Web使用挖掘的记录数据除了服务器的日志记录外还包括***日志、浏览器端日志、注册信息、用户会话信息、交易信息、Cookie中的信息、用户查询、鼠标点击流等一切用户与站点之间可能的交互记录。可见Web使用记录的数据量是非常巨大的,而且数据类型也相当丰富。
Web使用挖掘主要涉及两个关键问题: 一是如何进行数据的预处理; 二是如何挖掘出有价值的知识。 Web使用挖掘可以分为两类:一类是将Web使用记录的数据转换并传递进传统的关系表里,再使用数据挖掘算法对关系表中的数据进行常规挖掘;另一类是将Web使用记录的数据直接预处理,再进行挖掘。

数据挖掘原理、 算法及应用第7章 Web挖掘.ppt

数据挖掘原理、 算法及应用第7章 Web挖掘.ppt

数据挖掘原理、算法及应用第7章 Web挖掘.ppt

数据挖掘原理、算法及应用第7章 Web挖掘.ppt