文档介绍:基于事件驱动模型的搜索引擎的研究及原型系统设计湖南大学工程硕士学位论文学校代号:学论文提童旦期;生臼鹗殷荇跄科冢生旦密号:级:公开
咖洲哪㈣吣Ⅲ
作者签名:饿沈刷谧孙同哏步巍必武醐:沙一年月心日作者签名:囱魄液吼列闖/月心日日期:沙D辍г滦娜⒈C芸冢凇!D杲饷芎笫视帽臼谌ㄊ椤南学位论文原创性声明学位论文版权使用授权书⒉槐C芟唬湖大学本人郑重声明:所呈交的论文是本人在导师的指导下独立进行研究所除了文中特别加以标注引用的内容外,本论文不包含任献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文取得的研究成果。何其他个人或集体己经发表或撰写的成果作品。对本文的研究做出重要贡法律后果由本人承担。本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意被查阅和借阅。本人授权湖南大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。本学位论文属于朐谝陨舷嘤Ψ娇蚰诖颉薄獭
摘要自因特网诞生以来,网络信息以迅猛的速度爆炸似的增长,从传统的通用搜索引擎到个性化服务的搜索引擎,其技术和服务理念都有了很大的发展,然而在一些领域仍然有很大的发展余地,尤其是在查询结果的精度、无用户日志记录的个性化服务和用户的随机性关注主题的获取方面还有很大的研究和发展空间,论文的主要目的就是解决四方面的问题:一是无用户日志记录的个性化推荐技术,二是用户的随机性关注主题的获取与表示,三是用户对文档关注程度的分析,四是进一步提高搜索引擎返回结果的精度。首先,介绍了传统搜索引擎的与个性化服务的搜索引擎的工作原理、体系结构和主要技术,以及现有的个性化过滤技术本身的缺陷;其次,研究了搜索引擎其他相关理论和技术,如网络爬虫的工作原理、中文分词技术的原理,如机械匹配的分词方法、最大概率分词和的中文分词等,建立倒排索引的原理,检索技术级呒P汀⒖占湎蛄磕P秃透怕誓P偷以及页面排序技术腿ㄍ行囊趁嫠惴,为后面原型系统的设计和实现提供理论基础;然后,对基于事件驱动模型的搜索引擎的主要算法进行了详细阐述,提出了基于用户在页面的停留时问来分析用户对打开页面的关注程度的算法,在获取用户的随机关注主题以后,根据用户对页面的关注程度的算法,计算用户对当前主题的关注程度,决定是否进行异步更新与该主题相关的信息,从而实现无用户日志记录存储的个性化推荐技术;另外,结合文档的结构和中文文章的写作习惯,对关键词的权重计算方式进行改进,以更加精确的表达文档的主题特征,从而提高搜索引擎的检准率;最后设计了基于事件驱动模型的搜索引擎的系统原型,并使用和技术实现了所设计系统的原型,主要有索引器、检索器、过滤器、主题分析器和计时器。通过采用搭建和改造网络爬虫来获取网络资源与实现的系统原型,验证了所设计系统的可行性ㄋ婊刈⒅魈獾幕袢『陀没Ф源蚩N牡档墓刈程度的分析⑶叶愿慕墓丶嗜ㄖ丶扑闼惴ń醒橹ぃ浞炙得髁烁慕算法有助于搜索引擎检准率的提高。关键词:搜索引擎;事件驱动模型;主题分析;相似度计算基。耭,@绲乃阉鞴璉擎的研究及原型系统设计
彻瑃哪‘.,,琤琫瑆:琻琲,;,猟,;,瑃,,畃,;珻,,,籺痙,,’