文档介绍:涟步犬海硕士学位论文缰┲胙芯坑氤醪缴杓导师姓名职称申请学位级别杨小伟张白一副教授学科专业名称计算机应用技术论文提交日期年学位授予单位长安大学答辩委员会主席学位论文评阅人张卫钢教授赵文静教授丁爱玲副教授分类号:工学硕士年章畚拇鸨缛掌
要摘目前随着信息的爆炸增长,衿魃鲜菪畔⒁丫淮罅靠伤阉鞯脑线数据库极大的“深化”,传统搜索引擎已经不能有效检索到隐藏在衿骱筇ㄔ线数据库中的畔ⅰH绾慰焖儆行Щ袢畔⒄晌K阉饕嫜芯康本文重点对网络蜘蛛的研究和改进,以及畔⑻崛∩婕到的相关技术和算法问题,设计和实现了一个括以下几个方面:治隽舜乘阉饕娴纳杓扑枷搿⒐ぷ髟砗吞逑到峁梗佣⑾执乘阉饕擎在技术上存在的缺陷、不足之处和可改进的地方。治隽薉甧畔⒓上低车墓ぷ髟砗吞逑到峁梗⒓蛞K得鱀信息集成系统工作流程,系统组成模块中各个模块的功能。谝陨舷喙乩砺酆脱芯拷峁幕∩希岢隽吮疚闹猩杓艱思想、体系结构和工作流程。攵酝巢杉侍猓岢鲇醒≡竦牟杉忱嘈筒呗院涂刂浦馗赐巢杉呗裕有效地过滤了噪音信息和重复网页抓取问题。菘獠檠涌谖侍猓岢鐾ü治鐾彻菇网页标记树模型,通过遍历网页标记树来寻找查询接口。提出用对象模型表示询接口和存储表单数据,为后续查询接口合并与分类提供有效的数据表示模型和良好的存储结构,并给出具体实现算法。檠涌诤喜⒂敕掷辔侍猓岢鐾ü劾喾椒ㄊ迪侄云浜喜⒂敕类,并设计和实现了算法,使得查询接口分类与合并的准确性有很大的提高。芙崃薉缰┲胙芯坑肟7⒕椋⒅赋隽瞬蛔阒σ约跋乱徊窖芯关键词:搜索引擎,缰┲耄琔,查询接口,表单谓词,算法热点和和发展趋势。甧缰┲搿B畚牡闹饕9ぷ靼缰┲氲攵源泳蔡持刑崛攵訢的重点。
,,甌,.,,.,瑆瓼,瑂
籪籐,;;籷
导师签名:鲥敝作者虢协卜限协卜胂∥易年/月/日论文知识产权权属声明论文独创性声明?┠月/日妒年‘月本人声明:本人所呈交的学位论文是在导师的指导下,独立进行研究工作所取得的成果。除论文中已经注明引用的内容外,对论文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本论文中不包含任何未加明确注明的其他个人或集体已经公开发表的成果。本声明的法律责任由本人承担。本人在导师指导下所完成的论文及相关的职务作品,知识产权归属学校。学校享有以任何方式发表、复制、公开阅览、借阅以及申请专利等权利。本人离校后发表或使用学位论文或与该论文直接相关的学术论文或成果时,署名单位仍然为长安大学。C艿穆畚脑诮饷芎笥ψ袷卮斯娑论文作者签名:
第一章绪论问题的提出今天,我们处在信息时代,获取信息大部分的途径是通过访问互联网络而实现。随着互联网络技术的不断发展和互联网不断的普及应用,上信息量不仅成指数级的增长,同时信息的组织方式也发生了根本性的变化。最初上衿餍息大部分是由静态网页组成,随着网络技术的发展,衿魃铣鱿至硕常且现在逐步成为网站信息重要组成部分。静态网页是指网页文件中没有程序代码,网页内容使用语言,不需要在服务器端执行的网页,Ⅲ。其特点是:蔡持忻扛鐾扯加幸桓龉潭ǖ腢指向其在衿魃系姆梦事肪叮衬谌菀痪⒉嫉酵痉衿魃希蘼凼欠裼杏没Х梦剩扛鼍蔡车哪容都是保存在网站服务器上的。蔡车哪谌菹喽晕榷ǎ谱魍瓿珊竽谌莶换岣谋洌虼巳菀妆凰阉饕婕蔡车哪谌菀话阒苯忧对贖镅灾校挥行纬墒莺捅硐中问降姆掷耄如果要改变网页显示内容,就必须修改源代码,然后重新上传到服务器,在网站制作和维护方面工作量较大,因此当网站信息量很大时完全依靠静态网页制作方式比较困难。蔡车慕换バ越徊妫诠δ芊矫嬗薪洗蟮南拗啤没т谰蔡呈保痉衿鞑换嶂葱腥魏纬绦蚓椭苯咏ň蔡衬谌荽输给客户端的浏览器解读⋯。对于静态网页,由于其都有固定的车乃阉饕嬗闷渫缗莱按照某种控制策略,沿着趁娴某唇幽芄幌略仄鋀页面集合,因此,这类网页可以被搜索引擎搜索像百度、等检索到,我们称之为表层网络动态网页是相对静态网页而言的,它是指网页文件中不仅包含有标记,而且含有程序代码,需要被服务器端执行的网页⋯,其特点是:骋允菘饧际跷;。迪至耸莺捅硐中问降姆掷耄梢源蟠蠼档网站维护的工作量。信息组织结构且网页裕甴、.、.瘸<问轿:笞骸索。。长安人学硕士学位论文.
捎枚臣际醯耐究梢允迪指嗟墓δ埽缬没ё⒉帷⒂没У锹肌⒃谙调查、用户管理、订单管理等等。呈导噬喜⒉皇嵌懒⒋嬖谟诜衿魃系耐澄募挥械庇没肭笫保先由服务器执行相关程序后,然后将不同的执行程序结果实时动态地返回给客户端浏览持械摹”对搜索引擎检索存在一定的问题,搜索引擎一般不可能从一个网站的数据库中访问全部网页,或者出于技术方面的考虑,搜索蜘蛛不去抓取网址中“后面的内容,因此采用动态网页的网站在进行搜索引擎推广时需要做一定的技术处理才能适应搜索引擎的要求。动态网页中许多内容是存贮在后台数据库中,只有用户实时的通过填写前台表单页面信息后提交给后台数据库才动态的产生页