1 / 45
文档名称:

Deep+Web查询接口集成及搜索策略研究.pdf

格式:pdf   页数:45
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

Deep+Web查询接口集成及搜索策略研究.pdf

上传人:banana 2014/5/18 文件大小:0 KB

下载得到文件列表

Deep+Web查询接口集成及搜索策略研究.pdf

文档介绍

文档介绍:河北大学
硕士学位论文
Deep Web查询接口集成及搜索策略研究
姓名:刘鸿飞
申请学位级别:硕士
专业:计算机软件与理论
指导教师:袁方
20090501
摘要将接分为三类,并提出了接K卣庖桓拍睿隽私:男问交硎尽在此基础上提出了一种基于知识学习和探测查询的匹配、基于探测查询的匹配等步骤。实验表明该方法对接口抽取工作的依赖性较低并且对于集成的统一查询接口,本文改进了其上的搜索策略。首先针对所集成不同类型檠涌冢岢隽送庇成洹⒂畔燃队成浜图捎成淙钟成浞绞揭约岸次查询的方法来扩展统一查询接口功能,以提高查询准确率。然后提出了建立本地索引数据库的方法,以提高查询效率。分析表明,本文所述方法具有较高的查询准确率和时涌诩赡J狡ヅ渌阉鞑呗圆檠成随着计算机网络技术与信息技术的快速发展,系男畔⒓本缭黾樱丫晌5今社会的重要资源,人们也越来越多地依赖搜索引擎来查找所需的信息。但是存在大量的在线数据库,这些数据库中的信息通过提交查询实时产生,对于目前常用的搜索引擎是不可见的,称之为S捎贒性滩氐男畔⒅柿扛摺⒐婺更大,因此建立菁上低吵晌J菘饬煊蚝托畔⒓焖髁煊虻难芯咳鹊恪本文主要在檠:集成和统一查询接系乃阉鞑呗粤礁龇矫娼辛研究,这些都是菁裳芯康闹匾D谌荨在查询接口集成方面,首先通过分析檠涌谝趁娴慕峁辜捌浔硐中问剑:煞椒ā8梅椒ㄊ先选择要集成的属性,然后在各接口元素中匹配这些属性,最后将匹配为同一属性的接口元素集成在一起,构成统一查询接口。该方法包括基于模板的匹配、基于领域知识的具有较高的匹配准确率。的间效率。关键词摘要
甌,甌.,琧甌痠甆琺瓾瑃瓸瑃甀琣—,猙猙,,.,
曲..
日期:丝年』月旦日⒈C芸冢凇!D辍!T隆!H战饷芎笫视帽臼谌ㄉ鳌河北大学学位论文独创性声明学位论文使用授权声明作者签名:⒉槐C/育机构的学位或证书所使用过的材料。与我一同工作的同志对本研究所做的任何本人郑重声明:所呈交的学位论文,是本人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写的研究成果,也不包含为获得河北大学或其他教贡献均己在论文中作了明确的说明并表示了致谢。本人完全了解河北大学有关保留、使用学位论文的规定,即:学校有权保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。学校可以公布论文的全部或部分内容,可以采用影印、缩印或其他复制手段保存论文。本学位论文属于朐谝陨舷嘤Ψ礁衲诖颉啊獭
本人为申请河北大学学位所提交的题目为掳珍以包参洵商缸弱袁屈粲氇筠黼日期:盟年上月鱼日日期:辍辉挛廊年..之月卫日型丝的学位论文,是我个人在导师晓乃保护知识产权声明声明人:作者签名:导师签名:日期:傅疾⒂氲际献飨氯〉玫难芯砍晒研究工作及取得的研究成果是在河北大学所提供的研究经费及导师的研究经费资助下完成的。本人完全了解并严格遵守中华人民共和国为保护知识产权所制定的各项法律、行政法规以及河北大学的相关规定。本人声明如下:本论文的成果归河北大学所有,未经征得指导教师和河北大学的书面同意和授权,本人保证不以任何形式公开和传播科研成果和科研工作内容。如果违反本声明,本人愿意承担相应法律责任。⒁.—■
第绪论研究背景,最新调查显利,截至年底,中国已上的信息量迅速增多。根据瓼热说牡鞑椤壳罢鯳曲所蕴含的信息量超信息是传统搜索引擎搜索不到的,例如保存在数据库中的信息、实时查询产生的动态网阉饕娑耘莱娣梦氏拗啤K孀磐潮喑碳际醯姆⒄梗嚼丛蕉嗟恼镜悴捎脚本语言鏏、调用数据库的方式动态生成,并通过一些带“的超链接访问数据库。而搜索引擎一般只抓取文件,对于这种带“的页面,一般的脚本错误。这种错误会让爬虫进入死循环,无法退出而浪费时间。现在有的搜索引擎绨俣虽然支持一些动态页面的查询,但仍存在很多缺陷。一方面这样的动态页面常常是不稳定的,用户查询得到的结果经常是与原来不同的内容甚至是错误页面,影响搜索质量;另外,⒉己弯佬畔⒈涞迷嚼丛奖利,并且伴随着技术的发展,各种基于挠τ貌愠霾磺睿纱说贾铝舜娲⒃赪过了,并且仍在快速增长。以中文网站为例,据中国互联网络信息中心经有万个网站,网页总数超过诟觥R虼耍壳袄湃嗣堑奈侍庖丫烧也到信息,转变为如何从繁杂的信息中提取出对自己有用的内容。人们对查找信息的迫切需求导致了搜索引擎的出现,然而谢褂泻艽笠徊糠页等等。因此可以从传统搜索引擎的角度将治A讲糠郑切┠鼙淮乘阉饕检索到的称为“浅层网络”切┎荒鼙淮乘阉饕婕焖鞯降某莆!吧层网络。械男畔ⅲü车乃阉饕嬉话阄薹ḿ焖鞯剑鱿终庵智榭龅脑主要有两点际踉颉4车乃阉饕嬷饕J褂门莱嫱ü唇釉谕缟献ト∧谌荩由于它无法自动填写表单,因此对于需要在查询接口上输入检索词才能获取数据的在线数据库,爬虫无法得到其中