1 / 43
文档名称:

web数据挖掘.doc

格式:doc   大小:499KB   页数:43页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

web数据挖掘.doc

上传人:changjinlai 2018/6/15 文件大小:499 KB

下载得到文件列表

web数据挖掘.doc

相关文档

文档介绍

文档介绍:Web数据挖掘的类型
Web挖掘对象包含三方面的内容:Web上的文档信息、Web结构、用户浏览Web页面的记录数据。相应地,按挖掘对象的不同可将Web挖掘分三种类型:内容挖掘、结构挖掘和使用挖掘。

Web挖掘
使用挖掘
内容挖掘
结构挖掘
站点结构挖掘
文档结构挖掘
多媒体挖掘
文本挖掘
商业智能
站点修改
系统改进
个性化
页面推荐
Web数据挖掘的分类
Web内容挖掘:Web内容挖掘的目标是从大量Web文档的非结构化数据中自动查找和检索用户感兴趣的知识。由于Web上的数据是多种不同类型的数据的混合,如文本、图像、声音和视频等,以及Web数据的非结构化属性使得Web挖掘方法不同于一般数据挖掘的方法。当前大多数的信息描述仍以文本为主,因此,目前关于Web内容挖掘的讨论主要是针对文本。
Web结构挖掘:结构挖掘的目标是生成关于某个Web站点的结构和页面结构的概括信息,因此结构挖掘的重点在于链接信息。给定一个互关联的Web文档集合,通过存储在表格中的元组信息总可以找出一些信息描述文档之间的关系。结构挖掘的一个重要内容是Web文档本身的结构,它揭示了Web页面的组织方式。Web文档的结构信息对于浏览以及其他一些操作如:Web页框架之间的对比、合成等特别有用,在基于结构的Web文档分类和聚类中也很重要。
Web使用挖掘:是指从服务器日志(主要包括每个用户的浏览行为)中发现用户的访问模式,通过使用记录挖掘为用户提供个性化服务。Web服务器一般会自动保存用户的请求信息以及访问Web页面的方式等,称之为日志。使用记录挖掘不仅要找出用户经常访问的URL路径,而且也要找出用户有可能访问的相关站点的链接。
Web数据挖掘的用途
到一个站点的所有访问者都会留下浏览的踪迹,这些信息自动存储在Web服务器的日志文件中。Web分析工具通过分析和处理Web服务器的日志文件来生成有意义的信息。例如有多少人访问了该页面,他们从哪来,哪些页面最受欢迎等。当前经济模式的变化,上的电子交易,同时也改变了销售商和顾客的关系。现在网上顾客的流动性很大,他们关注的主要因素是商品的价值,而不像以前注意品牌和地理因素。因此,电子销售商一个主要挑战是,如何确定顾客的爱好、兴趣和价值取向,以保证在电子时代的竞争力。数据挖掘是用来发现不明显的、有潜在价值的数据。Web上数据挖掘的潜力在于应用存在的和最新的数据挖掘算法,服务器上的日志以及顾客、销售和产品的外部数据。
就电子商务而言,Web数据挖掘有以下三个方面的益处:
(1)理解顾客行为:
通过理解访问者的动态行为来优化电子商务网站的经营模式;
电子销售商可以获知访问者的个人爱好;
决定网站上由访问者到购买者的转化率;
决定顾客的回头率(顾客第二次购买同一品牌的概率);
发现顾客的购买模式和访问者的浏览模式;
发现什么样的顾客群在网站上购买什么商品;
发现电子商务网站上顾客之间的联系。
(2)判断Web站点的效率:
发现站点上的高购买率部分和低购买率部分;
Web设计者不再依靠专家的定性指导来设计网站,而是根据访问者的信息来修改和设计网站的结构和外观;
电子销售商可以根据不同的客户提供个性化服务。
(3)评估电子商务模式的成功与否:
容易将用户按模式分类;
容易评测广告的投资回报率;
容易得到可靠的市场回馈信息。
XML与Web数据挖掘技术
以XML为基础的新一代兼容原有的Web应用,而且可以更好地实现Web中的信息共享与交换。XML可看作一种半结构化的数据模型,可以很容易地将XML的文档描述与关系数据库中的属性一一对应起来,实施精确地查询与模型抽取。
1. XML的产生与发展    
XML(eXtensible Markup Language)是由万维网协会(W3C)设计,特别为Web应用服务的SGML(Standard General Markup Language)的一个重要分支。总的来说,XML是一种中间标记语言(Meta-markup Language),可提供描述结构化资料的格式,是一种类似于HTML,被设计用来描述数据的语言。XML提供了一种独立的运行程序的方法来共享数据,它是用来自动描述信息的一种新的标准语言。
XML由若干规则组成,这些规则可用于创建标记语言,并能用一种被称为分析程序的简明程序处理所有新创建的标记语言,文档提供一种显示方式一样,XML也创建了一种任何人都能读出和写入的世界语。XML解决了HTML不能解决的两个Web问题,发展速度快而接入速度慢的问题,以及可利用的信息多,但难以找到自己需要的那部分信息的问题。XML能增加结构