文档名称：

WEB的数据挖掘.pdf

格式：pdf 页数：4页

下载后只包含 1 个 PDF 格式的文档，没有任何的图纸或源代码，查看文件列表

如果您已付费下载过本站文档，您可以点这里二次下载

预览

下载此文档

WEB的数据挖掘.pdf

上传人:jiaoyuan2014 2016/4/14 文件大小：0 KB

下载得到文件列表

WEB的数据挖掘.pdf

相关文档

文档介绍

文档介绍：WEB 的数据挖掘潘卫东(佛山科学技术学院图书馆,广东佛山 528000 ) 〔摘要〕文章主要描述了 WEB页数据挖掘的基本任务,包括内容、结构、使用等。针对 WEB数据的复杂性和特殊性, WEB的数据挖掘除日志等一小部分可以用常用的数据挖掘方法外,必须对 WEB页做必要的数据处理,使之达到结构化数据的挖掘要求,或使用 XML技术来构造半结构数据模式再进行数据挖掘。〔关键词〕 WEB数据挖掘;文档内容挖掘;结构挖掘;使用挖掘;挖掘方法〔中图分类号〕 G2501 7 〔文献标识码〕 A 〔文章编号〕 1002 - 1167 (2004 )01 - 0079 - 03 1 WEB数据挖掘概述因特网是到目前为止世界上最丰富和最密集的信息来源, 在海量的、异构的 WEB信息资源中,蕴藏着具有巨大潜在价值的知识。所以人们迫切需要找到这样的工具,能够从 WEB上快速、有效的发现资源,发现隐含的规律性内容,提高在 WEB上检索信息、利用信息的效率,解决数据的应用质量问题。 WEB数据挖掘是指在藏的信息以及有用的模式这样一个过程。与传统的数据挖掘相比, WEB数据挖掘有自身的特点:首先, WEB挖掘的对象是海量的、异构的、分布的文档,其中对 WEB服务器上的日志和用户信息等数据展开的挖掘,仍然属于传统的数据挖掘的范畴。其次, WEB在逻辑上是一个由文档节点和超链接构成的图,因此 WEB的挖掘所得到的模式可能是关于 WEB内容的,也可能是关于 WEB结构的。再者,由于 WEB 文档是半结构化或无结构的,且缺乏机器理解的语义,而数据挖掘的对象局限于数据库中的结构化数据,并利用关系表格等存储结构来发现知识,因此有些数据挖掘技术并不能直接的应用于 WEB数据挖掘,需要对 WEB文档进行预处理。 2 WEB数据挖掘的主要处理对象 WEB上的信息是多样性的,包括 WEB的文档内容和 WEB的结构内容以及 WEB的使用信息,根据处理对象的不同,可以将 WEB挖掘可分为 WEB内容挖掘、结构挖掘、使用挖掘。其中内容挖掘指在人为组织的 WEB上,从文件内容及其描述中获取有用信息的过程;结构挖掘则是从人为的链接结构、文档的内部结构、文档 URL中的路径结构中获取有用知识的过程;使用挖掘是通过挖掘相应站点的日志文件和相关数据来发现该站点上的浏览者和顾客的行为模式。 21 1 WEB文档的内容挖掘 WEB内容数据的挖掘实际上是从 WEB文档及描述中获取知识,具体来说就是对 WEB上大量的文档集合的内容进行摘要、分类、聚类、关联分析、以及利用 WEB文档进行趋势预测等。另外,内容挖掘还包括对多媒体数据的挖掘。 WEB内容摘要是从文档中抽取关键信息、用简洁的形式对文档的内容进行描述或解释,这样用户可以不浏览全文就可以了解文档集合的总体内容。这种形式的 WEB挖掘非常有用。例如在检索结果显示中的应用、在 WEB自动文摘中的应用等等。 WEB的分类是指根据事先确定好的类别,给每个 WEB确定一个大类,例如,通过对 WEB页的预处理得到 WEB中的文本数据,再通过切分词、抽词、词频统计得到一个词串,再与分类号对应,把 WEB页归于某一类。聚类则是事先没有确定类别,但要求把相似度高的文档归于相同的类。关联分析是从文档集合中找出不同语词之间的关系。利用 WEB文档进行趋势预测是指通过对