文档介绍:苏州大学
硕士学位论文
Deep Web数据源发现相关技术研究
姓名:李林
申请学位级别:硕士
专业:计算机软件与理论
指导教师:崔志明
20090501
中文摘要随着网络飞速发展和所含信息规模的日益扩大,当前性毯舜罅康母髦各样的数据,其中很大一部分是高质量的结构化信息。而这些信息大多被保存在在线数据库中,用户只能通过查询接口来获取相关的信息,这类信息被称为信息。对这些结构化信息进行收集并集成,以提供高质量的结构化信息的检索服务,菰捶⑾炙婕暗降南喙丶际踅辛朔治鲅芯浚⑻岢隽讼芯苛嘶贒的查询接口判定技术。信息访问的入口,所以对数据源的发现其实也就是对查询接口的发现。本文提出了菰捶⑾治侍猓岢隽艘桓雒嫦虿檠ü导冉喜煌趁嫘畔⒊槿》椒ǖ挠湃钡悖岢鲆恢只贒树的页面信息抽取技术,该方法在髯既范ㄎ坏幕∩希虾玫卮砹私涌诔槿≈谐鱿值允占降氖菰葱畔⒔谐醪降拇恚饕J侨ブ卮恚竦枚际俏ㄒ坏包含查询接口的表单。此外,本文还对文中提出的方法和技术进行了实验,通过对实验结果的分析进一步验证本文提出的技术方法是行之有效的。菰捶⑾郑卣魍冀峁梗涌谂卸ǎ卣鞒槿指导老师:崔志明淌用户就能够快速、准确地找到所想要的信息。要对畔⒔惺占紫缺须解决的问题就是发现数据源。本文对关的算法和模型。主要研究工作包括:檠涌谑荄一种基于表单特征图的查询接口判定算法。捎梅植际脚莱婕际醮鞤接口判定的爬虫框架及算法。问题。关键词:作者:李林菰捶⑾窒喙丶际跹芯。
甀瑃甒,琺瑄—甌瓺.,.疭瑃瑃琣...,
珼現:琒
图表目录畔⑺阉鳌图檠涌诘募赡?椤图图书信息的查询接口⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..图表单中的特征⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.图表单特征图⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯图生成的表单特征图的信息⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯图表单特征图的扩展更新信息⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.图槿屎筒樽悸剩图菰捶⑾植僮髁鞒獭砉獭图分布式爬虫拓扑结构⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.⋯⋯⋯图爬虫程序的操作流程图⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..图竦么锌刹檠淼サ恼镜愀鍪图获取数据源可查询表单的查全率和查准率⋯⋯⋯⋯⋯⋯⋯⋯.页面文档⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯图近似的页面的鹘峁埂图网站中包含图书信息的页面⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.图局邪坎畔⒌囊趁妗图贫ǖ某槿」嬖颉图槿」嬖蛑贫üぞ咭籰⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.图槿」嬖蛑贫üぞ咭⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.图侄沃捣执毓獭组测试的阈值设置⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..殂兄瞪柚谩图卜图表
期:一羔垃日期:啦苏州大学学位论文独创性声明及使用授权的声明学位论文独创性声明学位论文使用授权声明人电子文档的内容和纸质论文的内容相一致。除在保密期内的保密论文本人郑重声明:所提交的学位论文是本人在导师的指导下,独立进行研究工作所取得的成果。除文中已经注明引用的内容外,本论文不含其他个人或集体已经发表或撰写过的研究成果,也不含为获得苏州大学或其它教育机构的学位证书而使用过的材料。对本文的研究作出重要贡献的个人和集体,均己在文中以明确方式标明。本人承担本声明的法律责任。研究生签名:苏州大学、中国科学技术信息研究所、国家图书馆、清华大学论文合作部、中国社科院文献信息情报中心有权保留本人所送交学位论文的复印件和电子文档,可以采用影印、缩印或其他复制手段保存论文。本外,允许论文被查阅和借阅,可以公布ǹ论文的全部或部分内容。论文的公布ǹ授权苏州大学学位办办理。期:日
第滦髀背景与意义本章主要介绍芯勘尘昂脱芯恳庖澹约癉鼻暗难芯肯肿础同时,提出了本文的研究内容和目标一如何更好地进行数据源的发现,最后给出本文的章节安排。随着网络技术应用的发展,系男畔⒁员ㄊ降乃俣仍谠龀ぁ8菪畔⒌脑含方式,可分为两大类:检索到的页面都是静态的或者通过梢灾苯恿唇拥降囊趁妫杂谀切┙狭榛畹亩态页面,如以表单作为查询接口,根据用户的输入动态地返回相应信息的页毯男畔⒔现隨啾龋哂泻芏嘤诺恪緇】【俊】:畔⒘看蟆8菅芯康鞑椋珼畔⒌系霭瑆数据库的站点进行统计【俊⑾终稣镜愕淖畔⒅柿扛摺T谙呤菘庵械男畔⒍际且越峁够男问奖4娴模⑶彝桓数据库中一般只保存一个或几个领域的信息,信息的针对性强,可利用性高。畔⒃龀に俣瓤臁D壳癉械男畔⒐婺;乖谘杆僭龃螅壳捌骄磕所以,鉴于以上几个优点,充分利用械男畔⒕拖缘靡庖逯卮蟆5怯捎泄逃械男畔⒃毯绞剑贾铝嘶袢≌庑┬畔⑹贝嬖诤芏嗬选课题的提出,也就是为了解决或者在一定程度上解决畔⒓焖鞴讨谐鱿甧虳C嫦騍男畔⒓焖饔用很多,目前传统搜索引擎大部分的检索工作都是在辖械模瞧面,传统搜索引擎的检索技术就无能为力了。而在隐藏在查询接口之后的在线数据库往往包含大量高质量信息。毯苏鯳中大部分的信息,而千百倍的差距,而且趁娴男畔⒋笤际荢叮舜罅看乘阉饕嫠阉鞑坏降男畔ⅰ驹数据量达到,,大约是惺