1 / 62
文档名称:

【硕士论文】web挖掘及其在网络搜索引擎中的应用研究.pdf

格式:pdf   页数:62页
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

【硕士论文】web挖掘及其在网络搜索引擎中的应用研究.pdf

上传人:phljianjian 2012/5/8 文件大小:0 KB

下载得到文件列表

【硕士论文】web挖掘及其在网络搜索引擎中的应用研究.pdf

文档介绍

文档介绍:诰蚣捌湓谕缢阉饕嬷械挠τ醚芯
杨春伟扑慊τ眉际
指导教师:李村合淌
摘要
随着网络技术的迅猛发展,殉晌5苯袷澜缟献畲蟮男畔
库,也是全球范围内信息传播的重要渠道。由于旧淼呐哟笮浴⒍
态性、异构性和半结构化等特点,导致了畔⑺阉鞯睦选D壳叭
们从这些海量数据中查找有用信息,使用最多的就是网络搜索引擎,然
而当前搜索引擎的检索效果很难使用户满意。作为知识挖掘中新的研究
内容诰颍捎谄湓谛畔⒋碇械牟愦谓细撸庇胨阉饕娴墓
系非常密切,对搜索引擎技术有很大的借鉴作用,所以通过应用
掘技术,可以改善搜索引擎的检索性能。查准率是搜索引擎检索性能评
价体系中的重要指标,它的高低直接影响用户对搜索引擎的满意度。课
题旨在研究诰蚣际酰⒔溆τ玫剿阉饕嬷校业教岣咚阉饕
擎查准率的方法。探讨了网络搜索引擎和诰虻南喙丶际酰氐阊
究了峁雇诰蛩惴ǎ治隽四壳坝τ霉惴旱腜惴ù嬖诘
问题,结合谌萃诰蛑械囊趁嫦嗨贫雀慕舜车腜惴ǎ
实验证明对算法的改进是有效的。在此基础上,改进了主题敏感的
算法。通过一个小型峁雇迹隽烁慕闹魈饷舾
算法是如何应用到搜索引擎中的。同时计算了搜索引擎在分别
使用传统、主题敏感算法和改进主题敏感
算法时的相对查准率。实验结果表明,针对不同的查询,改进的主题敏
感算法使搜索引擎的相对查准率高于传统的算法和
主题敏感算法,进而证明了改进的诰蛩惴芄惶岣咚
索引擎的查准率,改善搜索引擎的检索性能。
关键词:搜索引擎,诰颍琍魈饷舾蠵樽悸
琣瓸
瑂珼,

..

.

, .

.

.
,

.



甅.



篠,
中国石油大学6硕士论文第虑把
第虑把
课题的背景与意义
据调研机构年月份数据显示,截止到年月
底,全球网站的数量已经突破诖蠊兀月的网站数量翻了
一番;同时该统计数据表明,年全球新创建的互联网网址数目为
万个,而年前个月内新创建的网址数据已经达到万
个?杉鼻盎チM畔⒘咳匀辉诔时ㄊ降卦龀ぁS隬急剧增长
的海量信息相比,互联网用户每天所需要的信息却是极其有限的,这样
畔⒆芰康募本缗蛘臀抟墒谷嗣谴又锌焖倩袢∷栊畔⒈涞迷嚼丛
困难。搜索引擎技术可以用来解决这个问题
中国互联网络信息中心月日发布的《第
十八次中国互联网络发展状况统计报告》显示,搜索引擎已经成为中国
网民最经常使用的三大网络服务之一,调查中网民选择搜索引擎的比例
为.。而年翹⒉剂似
用性调查结果,调查结果表明访问搜索引擎已成为%的峄爸械
第一步,而就搜索成功性而言,所有用户ㄅ级褂没蚓榉岣坏
用户运阉鹘峁獾拇问俜直热唇鑫ィ跃榉岣坏挠没Ю
说这一数字为%S纱瞬荒芽闯鏊阉饕嬉丫晌H嗣谴覹上获
取所需信息的最主要途径之一,但目前的搜索效果还很难让用户满意。
搜索引擎在搜索结果中冗余、无用信息过多,导致用户很难从搜索
结果中快速地找到自己真正想要的信息。从技术层面分析其原因,目前
搜索引擎存在以下急需进一步完善和提高的方面排序规则急需进
一步完善;镆謇斫饽芰毙杞徊皆銮浚,个性化搜索技术急需进
国内外研究现状一步完善;纸诜执蚀硭郊毙杼嵘诰际蹩梢园镏饩鏊阉饕嬷谐鱿值纳鲜鑫题佣纳扑阉饕娴男阅堋=昀碬挖掘已经成为国内外研究的一个热点。诰鞘褂檬萃诰蚣际踝远卮覹文档和服务中发现和提取信息和知识的技术8軼数据的三种类型,诰蛳嘤Φ胤治H啵篧内容挖掘结构挖掘课题旨在通过对诰蚣际醯难芯浚钪战溆τ糜谕缢阉饕擎中,找到改善搜索引擎查准率的方法,进而改善搜索引擎的检索性能,根据诰虻姆掷啵悦恳焕嗟难芯肯肿醇捌湓谒阉饕嬷械挠用情况进行介绍:内容挖掘研究目前主要集中在文本分类、文本聚类、自动聚醯谌萃诰蚬ぞ摺是瞥龅腤文本挖掘工具,是家族的一员。它主要包括高级搜索引擎琖访问工具和文本分析工具三部分。其主要特点是具有强大的文本分析功能,包括特征提取、分类、聚类和自动摘要,但同时对空间和配置的要求较高。是由究7⒌奈谋拘畔⑼诰蛉砑饕L点是利用计算符号生成概念图,能够准确、直观地反映文献主题之间的琖蚖使用挖掘曲。帮助用户提高信息检索的效率。摘要、文本可视化等方面,出现了像腎珄究7⒌腟拢琈公司开发的中国石油大学6硕士论文第虑把
值时考虑了搜索词与页面的相关性,但使用的是在线计算的方式,显然关系,具有文本可视化、特征提取和聚类的功能。荕公司开发的一个智能文本信息挖掘和语义信息检索系统,它能够生成语义网,且能显示主题结构、文本聚类、自动摘要和自然语言检索等。在自动摘要方面,年上海交通大学研制了“中英文自动摘要系统”,它综合运用了“文首自动截取法”、“论题句提取法”、“词频统计与句子加权法”、“