文档介绍:要摘‘旺联网旱男畔⒚刻於荚诓欢系脑龀ぃ娑匀绱撕棋ǖ淖试矗阉饕嫖K型冲浪的用户捉供了一个入口,毫不夸张地说,所有的用户都可以从搜索引擎出发到达自己想去的网喝魏我桓龅胤健R虼怂渤晌3说缱佑始酝庾疃嗳耸褂玫耐戏瘛但是,随着信息多元化的增长,千篇一律的给所有用户提供同一个入口显然已经不能满足特定川户更深入的查询需求。同时,这样的通用搜索引擎在目前的硬件条件下,要及时更新以得到互联网上较全面的信息是不太可能的。针对这种情况,我们需要一个面向主题的、对硬件要求低、数据全面深入、更新及时的垂直搜索引擎。近几年来,垂直搜索引擎已经被应用到某些专业的领域缁А⒖萍嘉南。本文从理论和实践两个方面探讨了网络信息检索技术以及检索技术在搜索引擎系统【的应用,采刖基内,容和基于链接的搜索技术相结合的思想,设计实现了一个垂直搜索系统。垂£阉飨低城擅畹乩迷K阉饕胬词迪秩范ǔ跏颊镜慵希岣吡顺跏站点集合的精度。在进行超链分析中,系统采取了基二谌莺突诹唇酉嘟嵊岬姆椒ǎ充分考虑了』,如锚、引用计数,结合网页本身与主题的十关度,计算网页的权值,达到优先选择与主题最相关的网页进行搜索,有效地提高了搜索的效论文首先阐述了网络信息发展的现状和搜索引擎发展的不足,指出了垂直搜索引擎的概念和研究的必要性。然后对垂直搜索引擎进行理论性的分析,介绍了系统涉及的术语和关键技术,具体介绍了网络蜘蛛的设计规则和法则、超链分析以及垂商搜索的相关算:法。最后是系统的设计和实现部分,在上述理论分析的基础上提出了系统的设计思想,采用基于链接和基于内容相结合的方法,并介绍了系统的结构和具体实现关键词:垂直搜索引擎;超链分析;网络蜘蛛率。技术。人连理喝搜ёㄒ笛Ш嗡妒宦畚
琣甌琱.;人连理喝搜ёㄒ笛凰妒宦畚甋,瑂,..:;,.,,.琣猙—.琱瑃,,瑀,.
乖直搜索引擎研究的架构与实现
至纽日期:』单年—互月日学位论文题目:考奔迥蚁笆彳芽埽日期:年—厶月旦日作者签名:三堡宴笙主大连理工大学学位论文版权使用授权书论文工作的知识产权属于大连理工大学,允许论文被查阅和借阅。学校有权保留论文并向国家有关部门或机构送交论文的复印件和电子版,可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印、或扫描等复制手段保存和汇编本学位论文。导师签名本人完全了解学校有关学位论文知识产权的规定,在校攻读学位期间人连理喝搜貉芯可Ш温畚。
大连理工大学学位论文独创性声明作者郑重声明:所呈交的学位论文,是本人在导师的指导下进行研究工作所取得的成果。尽我所知,除文中已经注明引用内容和致谢的地方外,本论文不包含其他个人或集体已经发表的研究成果,也不包含其他已申请学位或其他用途使用过的成果。与我一同工作的同志对本研究所做的贡献均已在论文中做了明确的说明并表示了谢意。若有不实之处,本人愿意承担相关法律责任。学位论文作者签名
绪论课题背景川芪个球网站总数达到,觥T辏琋ぜ艻黾映通用搜索引擎年代冢岳防部高级研究计划局自年诞生以来,在迄今为系氖嗄暾址⒄寡该停阎鸾コ晌H死嗌缁嵝畔⒆试粗械囊桓鲋匾W槌刹糠帧K孀技术和应用的不断发展,人类社会的信息化进程不断加快,,,再次刷新年新增万的增长记录。在困内,根据年琷公布的白:联网统汁报告⋯,目粄『中国网站数量已达万个,:畔⒘看蠖曳稚ⅲ畔⒆试炊嘀侄嘌这些特点对网络软件的·盹能提撕芨叩囊G蟆K孀鸥蕴赝姆⒄梗纷试磃娣富,给信息挖掘带来了挑战。一方面使其实用性不断加强,越术越多的人从网上获取信息:另一方瓶,人们经常会感到难以找到自己想要的信息,即使有像这样的搜索引擎。对于具体专或某一领域的内容尤其如此,如科技文献、物理化学性质在网上相关站点较少的领域,或者如色情、赌博、反动等特殊站点,一般的搜索引擎根本查不到有价值的资料。所以,要从上获取有价值的专业信息,就必须有专门的搜索引擎来获取争业’珏联笆恰觥揽猓阉饕媸谴蜇⒈獾囊话言砍住H欢蠖嗍裨谒阉引擎的相关知簘笆褂眉记缮夏芰Σ蛔恪9獾囊淮蔚鞑榻峁允荆加サ娜硕运索的结果感剑不同程度的失望。要在如此浩瀚的信息海洋里寻找信息,就像“大海捞针”一样困难。搜索引擎讵是为了解决这个“迷航”问题而出现的技术。剂嘶チM际醯难芯俊6鴚资源。艾体:始选择魑F湓靥濉痳,根勃继续保持快速增长的势头。灾涡郧浚弧致和不完移性。性的信息。人迮理喝搜ёㄒ笛凰妒宦畚
第一个真正意义上的现代搜索引擎出现在年隆5蹦月,美国斯坦福大学的两名博士生,⒄沟氖逼凇搜索引擎一一般畔⒉杉⑺饕菘夂筒檠親部分组成ぷ髁甶罚从图锌梢钥闯觯阉饕娴墓ぷ靼ㄈ鏔三个过程:罚毫薴:联中