文档介绍:兰州理工大学
硕士学位论文
基于Lucene的Web搜索引擎的研究
姓名:李建林
申请学位级别:硕士
专业:计算机应用技术
指导教师:张永
20100420
摘要随着网络信息量正不断地以指数规模增长,人类已步入信息爆炸时代。面对浩如烟海的网络信息,如何才能迅速、方便地获取有效信息,日益成为人们关心的问题。搜索引擎的出现极大地缓解了这一矛盾。搜索引擎是一种应用在系娜砑低常砸欢ǖ牟呗栽诨チM薪行搜集、发现信息,对信息进行理解、提取、组织和处理,并为用户提供检索服务,从而起到信息导航的目的。在当前网络信息的大环境里,网络上出现了很多商业性的阉饕擎,如、龋羌ù蟮胤奖懔送缬没А5捎他们的商业性质,其关键技术对于外界是保密的。为推进搜索引擎技术的发展,基金会推出了一个开源的全文搜索引擎工具包。可以方便地嵌入到各种应用中,实现针对具体应用的全文检索功能,近些年来在世界各地被广泛应用。本文在现有搜索引擎理论的基础上,以为基础,并结合荽娲⒌乃枷耄硬煌愦窝芯苛艘本文的主要工作体现在以下三个方面:治隽说鼻八阉饕娴墓ぷ骰坪凸丶际酰乇鹕羁痰仄饰隽的索引引擎机制和搜索引擎机制,并在此基础上设计了基于的阉饕婕芄埂杂诒嘈匆G蟛谎辖鞯腍迪值耐骋U嬲龅礁咝ё既返耐掘数据非常困难。相对于,梢愿玫厥迪諻中的信息共享与交换。本文提出了莩槿∧?榈纳杓扑枷耄捎肵文件存储准备被索引的文件,可以有效地提高建立索引的速度和减小存储索引的空间,并能有效地提高数据挖掘的准确性。攵訪∨判蛩惴ú檠范冉系筒⑶抑豢悸枪丶屎文档的相关度,忽略了网页本身的重要性的缺点,本文对排序算法进行了改进,改进后算法的最大特点是通过调整权重系数提高网页排名的合理性和查询的精确度。关键词:;莩槿∧?椋慌判蛩惴ㄓ呕凰阉饕为核心的搜索引擎的构建。硕士学位论文
.,基于的阉饕娴难芯甊瓼瑃甌甋,琭,,,琒瑆瓾,.,—.琇瑆甌,.甌,,,,,
篖籜硕士学位论文琲,瑆;籹Ⅲ
插图索引图搜索引擎的一般模型⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯图简单值的计算⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..系统结构图⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.数据流图⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..索引机制架构图⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯索引文件结构图⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯图基于内存缓存有助于改善索引性能⋯⋯⋯.检索机制架构图⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯图基于的阉饕嫦低匙芴寮芄雇肌图信息采集模块的体系结构图⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯图信息处理模块的体系结构图⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯模块的体系结构图⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯莩槿∧?榱鞒掏肌图基于的阉饕娴难芯
附表索引各包功能表⋯⋯⋯⋯⋯⋯⋯⋯...⋯⋯⋯⋯⋯⋯⋯⋯⋯一⋯.味员仁笛榈牡ジ鲇没Ф韵低称兰鄣牟樽悸省味员仁笛榈牟樽悸省表调整索引性能的参数⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..硕士学位论文
涤李屯林一春扯咕日期洳年乡月日期舢年占其兰州理工大学学位论文原创性声明和使用授权说明日期如勿年多月夕日原创性声明学位论文版权使用授权书研究成果。除了文中特别加以标注引用的内容外,本论文不包含任何其他个人或已在文中以明确方式标明。本人完全意识到本声明的法律后果由本人承担。本人郑重声明:所呈交的论文是本人在导师的指导下独立进行研究所取得的集体已经发表或撰写的成果作品。对本文的研究做出重要贡献的个人和集体,均作者签名:本学位论文作者完全了解学校有关保留、使用学位论文的规定,即:学校有权保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权兰州理工大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。同时授权中国科学技术信息研究所将本学位论文收录到《中国学位论文全文数据库》,并通过网络向社会公众提供信息服务。导师签名:
,互联网上的网络信息量以指数的规模增长,人类已步入信息爆炸时代,在这种环境下搜索引擎已经成为人们在海量信息中快速、准确地定位到所需的信息的必要工具。搜索引擎技术是互联网发展的第二次技术革命俊4油ㄋ滓庖迳辖玻阉饕媸侵敢恢只チMτ萌砑系统,该系统以一定的爬取策略在互联网上搜集信息,在对信息进行处理后,为用户提供互联网信息查询服务。从用户的角度上看,搜索引擎软件系统提供一个网页交互界面,用户可以通过网页交互界面提交一个或多个关键词或者短语,该系统返回一个以某种排序策略进行排序后的结果信息列表妇】【根据年拢泄チM缰行发布的《第次中国互联网络发展状况统计报告》,,⒉嫉恼夥荼ǜ