1 / 65
文档名称:

Deep Web数据源发现相关技术研究.pdf

格式:pdf   页数:65
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

Deep Web数据源发现相关技术研究.pdf

上传人:Horange 2014/5/14 文件大小:0 KB

下载得到文件列表

Deep Web数据源发现相关技术研究.pdf

文档介绍

文档介绍:苏州大学
硕士学位论文
Deep Web数据源发现相关技术研究
姓名:李林
申请学位级别:硕士
专业:计算机软件与理论
指导教师:崔志明
20090501
中文摘要随着网络飞速发展和所含信息规模的日益扩大,当前性毯舜罅康母髦各样的数据,其中很大一部分是高质量的结构化信息。而这些信息大多被保存在在线数据库中,用户只能通过查询接口来获取相关的信息,这类信息被称为信息。对这些结构化信息进行收集并集成,以提供高质量的结构化信息的检索服务,菰捶⑾炙婕暗降南喙丶际踅辛朔治鲅芯浚⑻岢隽讼芯苛嘶贒的查询接口判定技术。信息访问的入口,所以对数据源的发现其实也就是对查询接口的发现。本文提出了菰捶⑾治侍猓岢隽艘桓雒嫦虿檠ü导冉喜煌趁嫘畔⒊槿》椒ǖ挠湃钡悖岢鲆恢只贒树的页面信息抽取技术,该方法在髯既范ㄎ坏幕∩希虾玫卮砹私涌诔槿≈谐鱿值允占降氖菰葱畔⒔谐醪降拇恚饕J侨ブ卮恚竦枚际俏ㄒ坏包含查询接口的表单。此外,本文还对文中提出的方法和技术进行了实验,通过对实验结果的分析进一步验证本文提出的技术方法是行之有效的。菰捶⑾郑卣魍冀峁梗涌谂卸ǎ卣鞒槿指导老师:崔志明淌用户就能够快速、准确地找到所想要的信息。要对畔⒔惺占紫缺须解决的问题就是发现数据源。本文对关的算法和模型。主要研究工作包括:檠涌谑荄一种基于表单特征图的查询接口判定算法。捎梅植际脚莱婕际醮鞤接口判定的爬虫框架及算法。问题。关键词:作者:李林菰捶⑾窒喙丶际跹芯。
甀瑃甒,琺瑄—甌瓺.,.疭瑃瑃琣...,
珼現:琒
图表目录畔⑺阉鳌图檠涌诘募赡?椤图图书信息的查询接口⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..图表单中的特征⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.图表单特征图⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯图生成的表单特征图的信息⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯图表单特征图的扩展更新信息⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.图槿屎筒樽悸剩图菰捶⑾植僮髁鞒獭砉獭图分布式爬虫拓扑结构⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.⋯⋯⋯图爬虫程序的操作流程图⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..图竦么锌刹檠淼サ恼镜愀鍪图获取数据源可查询表单的查全率和查准率⋯⋯⋯⋯⋯⋯⋯⋯.页面文档⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯图近似的页面的鹘峁埂图网站中包含图书信息的页面⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.图局邪坎畔⒌囊趁妗图贫ǖ某槿」嬖颉图槿」嬖蛑贫üぞ咭籰⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.图槿」嬖蛑贫üぞ咭⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.图侄沃捣执毓獭组测试的阈值设置⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..殂兄瞪柚谩图卜图表
期:一羔垃日期:啦苏州大学学位论文独创性声明及使用授权的声明学位论文独创性声明学位论文使用授权声明人电子文档的内容和纸质论文的内容相一致。除在保密期内的保密论文本人郑重声明:所提交的学位论文是本人在导师的指导下,独立进行研究工作所取得的成果。除文中已经注明引用的内容外,本论文不含其他个人或集体已经发表或撰写过的研究成果,也不含为获得苏州大学或其它教育机构的学位证书而使用过的材料。对本文的研究作出重要贡献的个人和集体,均己在文中以明确方式标明。本人承担本声明的法律责任。研究生签名:苏州大学、中国科学技术信息研究所、国家图书馆、清华大学论文合作部、中国社科院文献信息情报中心有权保留本人所送交学位论文的复印件和电子文档,可以采用影印、缩印或其他复制手段保存论文。本外,允许论文被查阅和借阅,可以公布ǹ论文的全部或部分内容。论文的公布ǹ授权苏州大学学位办办理。期:日
第滦髀背景与意义本章主要介绍芯勘尘昂脱芯恳庖澹约癉鼻暗难芯肯肿础同时,提出了本文的研究内容和目标一如何更好地进行数据源的发现,最后给出本文的章节安排。随着网络技术应用的发展,系男畔⒁员ㄊ降乃俣仍谠龀ぁ8菪畔⒌脑含方式,可分为两大类:检索到的页面都是静态的或者通过梢灾苯恿唇拥降囊趁妫杂谀切┙狭榛畹亩态页面,如以表单作为查询接口,根据用户的输入动态地返回相应信息的页毯男畔⒔现隨啾龋哂泻芏嘤诺恪緇】【俊】:畔⒘看蟆8菅芯康鞑椋珼畔⒌系霭瑆数据库的站点进行统计【俊⑾终稣镜愕淖畔⒅柿扛摺T谙呤菘庵械男畔⒍际且越峁够男问奖4娴模⑶彝桓数据库中一般只保存一个或几个领域的信息,信息的针对性强,可利用性高。畔⒃龀に俣瓤臁D壳癉械男畔⒐婺;乖谘杆僭龃螅壳捌骄磕所以,鉴于以上几个优点,充分利用械男畔⒕拖缘靡庖逯卮蟆5怯捎泄逃械男畔⒃毯绞剑贾铝嘶袢≌庑┬畔⑹贝嬖诤芏嗬选课题的提出,也就是为了解决或者在一定程度上解决畔⒓焖鞴讨谐鱿甧虳C嫦騍男畔⒓焖饔用很多,目前传统搜索引擎大部分的检索工作都是在辖械模瞧面,传统搜索引擎的检索技术就无能为力了。而在隐藏在查询接口之后的在线数据库往往包含大量高质量信息。毯苏鯳中大部分的信息,而千百倍的差距,而且趁娴男畔⒋笤际荢叮舜罅看乘阉饕嫠阉鞑坏降男畔ⅰ驹数据量达到,,大约是惺

最近更新

2025广西贺州市钟山县紧密型县域医疗卫生健康.. 47页

2025辽宁沈阳汽车集团有限公司招聘1人考试备考.. 44页

2025重庆大足区公安局警务辅助人员招聘31人备.. 50页

2026国家药品监督管理局新闻宣传中心编制外人.. 47页

2026山西省面向北京林业大学选调优秀高校毕业.. 45页

2026年(完整版)C语言选择题题库完整 13页

2026年c语言初学者编程题目及参考答案 13页

2026年c语言编程练习题及答案(新) 13页

2026年c语言试题期末标准卷 13页

2026年专升本C语言真题(各地真题) 13页

2026年中国城市建设史复习题100道带答案(巩固.. 44页

2026年信阳航空职业学院单招职业适应性考试模.. 46页

2026年内蒙古交通职业技术学院单招职业适应性.. 44页

2026年刑事诉讼原理与实务模拟题100道及参考答.. 49页

2026年北京邮电大学医院招聘参考题库附答案解.. 45页

2026年司法考试题库100道附参考答案【达标题】.. 49页

加强现代农事综合服务中心建设 推动健全便捷高.. 7页

2026年哈尔滨幼儿师范高等专科学校单招职业技.. 45页

2026年安徽城市管理职业学院单招职业适应性考.. 37页

2025年湖南省建设工程工程量清单计价办法(新).. 51页

2025年江西信息应用职业技术学院单招职业适应.. 127页

六年级英语上册第一单元测试题-(含答案) 9页

喝酒给老婆的检讨书 6页

vae乳液低温发泡工艺 29页

广东市政工程资料表格填写范例样本(其他低区仅.. 231页

《口蹄疫》ppt课件 42页

自然条件对城市的影响 48页

话剧《糊涂戏班》剧本 65页