1 / 62
文档名称:

关于WEB数据挖掘中HITS算法的研究(可复制论文).pdf

格式:pdf   页数:62
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

关于WEB数据挖掘中HITS算法的研究(可复制论文).pdf

上传人:mkt365 2013/11/14 文件大小:0 KB

下载得到文件列表

关于WEB数据挖掘中HITS算法的研究(可复制论文).pdf

文档介绍

文档介绍:摘要了重点讨论,在实验的基础上对传统算法易产生主题偏移问题这一缺点进行了分析,并针对这一问题,使用根集向量投影法和基本集缩减法对算法加以改进,接本文对改进后的算法与传统算法进行了实验比较,发现根集向量投影法且桓鼍薮蟆⒎植脊惴骸⑷蛐缘男畔⒎裰行模峁┝烁髦指餮男畔服务。与此同时,如何从峁┑暮迫缪毯5男畔⒅谢袢∷栊畔⒒蚴谴又刑取出有用知识便相应的成为一个迫切需要解决的问题。将传统的数据挖掘技术和岷掀鹄矗蠾数据挖掘成为解决这一问题的一条重要途径。本文首先论述了数据挖掘技术在杏τ玫母鞲龇矫妫ㄆ浞掷唷技术、发展状况、前景和研究方向,以及萃诰蚣际踉谒阉饕嬷械挠τ茫讨论了猈数据挖掘带来的新变化与转机。峁雇诰蚴荳数据挖掘的一个重要方面,其重点在于信息检索,链接分析技术在该领域中扮演着极为重要的角色,并已经被成功的用于分析唇邮堇慈范权威的信息源。在各种对网页进行链接分析并提取分组的算法中,惴ㄊ怯τ玫淖钗9惴旱摹1疚亩訦惴ń着在根集向量投影法的基础上,又提出了根集向量加权投影法和基本集向量加权投影法进行进~步改进,以更好的实现权威网页搜索。可以有效的避免主题偏移现象,基本集缩减法可以大大的缩减算法运算量,而根集向量加权投影法和基本集向量加权投影法则可以在使权威网页的提取结果更为合理的基础上,有效提高算法的灵活性。关键词:萃诰颍籄籋弧璗惴ǎ焊蛄客队胺ǎ换炯跫法;根集向量加权投影法;基本集向量加权投影法
知识水坝***@pologoogle为您整理
琀瓼,,,,:.琱,∞瑃瓸琲;阨瓵,,,,琣..篧:篐篐篟猻;:—·辏.
知识水坝***@pologoogle为您整理
髀本文应用背景万维网是畔⒌闹饕T靥逯唬颐敲扛鋈硕寄芊窒淼狡浞岣坏淖试础U几年来,我们身边的这个网络正在以惊人的速度成长起来,每天都有数以百万计的网页加入到小K丫晌A艘桓錾婕敖逃⒄⒌缱由涛瘛⑿挛拧⒐愀妗⑾研息、金融管理和许多其它信息服务的、巨大的、分布广泛、全球性的信息服务中心。钠占昂头⒄刮H嗣谴戳司薮蟮纳缁嵝б妫氪送保参P畔⒖蒲У研究带来了巨大的机遇和挑战。虽然网络可以迅速便捷的为人们带来大量信息,但是,哂械暮A渴荨⒏丛有浴⒓康亩浴⒂没У亩嘌院托∠喙匦曰蛴杏眯缘特点给试捶⒕蛟斐闪讼嗟钡哪讯取T谑导视τ弥校毙枰4油缟匣袢⌒畔⑹保有用信息往往会被大量的无用信息所淹没,使用户处于无所适从的境地。近几年来兴起与发展的数据挖掘技术为以上这些问题的解决带来了一线曙光。数据挖掘是融合了统计学、人工知识、模式识别、并行计算、机器学习、数据库等技术的一个交叉性的研究领域,它是一个从存放在数据库、数据仓库或其它信息库中的大量数据中挖掘有价值知识的过程;同时,数据挖掘又是一种决镱支持过程,它可以高度自动化的分析数据源原有数据,做出归纳性推理,从中挖掘出潜在的模式,预测趋势,从而帮助使用者调整策略,做出正确决策。因此,将数据挖掘技术和岷掀鹄矗蠾数据挖掘就自然而然的成为了解决诰蛭侍獾闹匾M揪丁萃诰蚴鞘萃诰蛟赪上的应用,它是一项综合技术,采用较为一般的定义:萃诰蚓褪谴佑隬相关的资源与行为中抽取感兴趣的、潜在的有用模式和隐含信息。随着信息技术的发展,计算机、网络和通信三者的相互结合,已经产生了数据挖掘的新方向。峁雇诰蚴荳数据挖掘的~个重要方面,其重点在于信息检索。虽然随着万维网规模上的迅速增长,其复杂性也大大的增加,以致于我们已经无法继续掌握其全貌。然而,在一些较小的、本地的领域里,硐值娜匀皇怯行虻摹⒔峁够模蛭M的超链接结构是建立在人们努力进行注释的基础上的。车淖髡咄嵩谄渫中添加指向相关主题网页的链接。通过利用这些链接信息,就可以针对某一主题对网页进行提取和分组。搜索引擎可以帮助人们尽快地找到所需要的信息,但是目前多数搜索引擎是基于分类或关键词逻辑组配的检索方式,用户的一个查询请求往往会检索出庞大的结果集,而用户所需要的信息却只是其中部分,面对如此多的结果,用户仍然不知所措,因此,如何提供一些有效的工具和方法,帮助人们高效地获取所需信息,搜索所需领域的权威网页就成为了研究者们所面临的重大课题。为了达到自动识别权威网页的目的,首先必须要能对网页价值进行合理的评估,而计算网页价值的一种切实有效的途径就是利用万维网链接结构本身所包含的丰富信息。关于萃诰蛑蠬惴ǖ难芯
果不稳定的特点,介绍了一种改进算法一子空间算法。本文的工作细的描述,接着将惴ㄓ肓硪桓霰冉暇哂写硇缘耐撑判蛩惴ā!谌率紫冉樯芰薍惴ǖ挠τ帽尘昂头⒄估罚缓蠖詍算法进行了详合模型,最后,针对鰓,信息动态性强、传统算法对权威网页的提取结链接分析技术在这一领域中扮演着重要的角色,已经被成功地用于分析唇邮来确定权威信息源,并已经成为当前主流阉饕娴幕在所有对网页进行链接分析并提取分组的算法中,惴ㄊ怯τ玫淖钗9惴旱摹1疚亩訦惴ń辛松钊胂钢碌姆治霾⑻岢隽硕种改进方法,以期更好的实现权