1 / 75
文档名称:

基于领域模型的Deep+Web查询接口模式提取技术.pdf

格式:pdf   页数:75
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

基于领域模型的Deep+Web查询接口模式提取技术.pdf

上传人:Horange 2014/5/15 文件大小:0 KB

下载得到文件列表

基于领域模型的Deep+Web查询接口模式提取技术.pdf

文档介绍

文档介绍:南开大学
硕士学位论文
基于领域模型的Deep Web查询接口模式提取技术
姓名:杨宗云
申请学位级别:硕士
专业:计算机软件与理论
指导教师:袁晓洁
20090501
摘要域。访问菘庵鸾コ晌H嗣腔袢⌒畔⒌闹饕J侄危虼巳绾我宰远姆处理,因此对查询接口模式的研究占有极其重要的地位。在领域模型的基础上,本文提出一种通过领域模型知识的指导来提取查询接口模式的方法。首先,为每一个领域构建领域模型,该模型提供了能够指导利用领域模型结合查询接口页面的布局、语义信息,对每一个表单控件分配一基于领域模型的查询接口模式提取技术充分利用领域模型的模式信息,同邪岣坏男畔ⅲ庑┬畔⒔峁剐院谩⒓壑蹈摺⒚嫦蛱囟ǖ牧式完成对菘庵行畔⒌挠行Ю贸晌Q芯康娜鹊恪菁裳究的根本目的就是为了给用户提供一个统一的访问途径来自动获取和利用自由分布在整个互联网上丰富的畔ⅰ查询接口是菁闪煊蜓芯康幕 U馐且蛭2檠荄菘獾奈ㄒ蝗肟冢ü駾檠涌谔峤徊檠腔竦闷渲行畔⒌主要途径。在菁煽蚣苤校腥舾勺游侍舛家览涤诙圆檠涌诘镜愣际敲嫦蛱囟煊虻模圆檠涌诘哪J酵ǔS梢蛔榱煊相关的属性组成。已有的研究成果表明,同一领域内大量查询接口的属性聚合后收敛于一个相对较小的集合中,因此本文提出领域模型的概念。领域模型定义了特定领域内所有查询接口包含的属性和表达相同语义的属性词汇,它是一种树形的层次结构,表示领域内各个属性和领域元素的层次关系。领域模型在菁上低车娜舾晌侍庵卸加杏τ眉壑怠查询接口模式提取的全局模式信息;其次,通过接口标签和领域模型之间在语义上的相似性对每一个标签按照属性进行分组,生成查询接口的标签树;再次,个标签,生成接口元素的集合;最后,合并前两步得到的标签树和接口元素,生成查询接口的完整模式信息。时结合网页布局、表单控件的语义信息等因素。实验结果表明,该方法有很好的查全率和查准率,具有较强的实用性。关键字:菁桑涣煊蚰P停徊檠J教崛。
..鷙.,—’;疭甌痮瑃甶.,琤,;;瑄Ⅱ’
.甌;琧疭琎,..
学号:∥彬乡汐院系所名称:瓴技料学哮皖论文《萎搠破柱型俩即蚴香甸撂汐撩式靛≯故毒南开大学学位论文电子版授权使用协议杨宗云本人完全了解《直珏丕堂图量焦苤王堡查沟┨觅族嗜目鹄砗同意》系本人在南开大学工作和学习期间创作完成的作品,并己通过论文答辩。本人系本作品的唯一作者谝蛔髡,即著作权人。现本人同意将本作品收录于“南开大学博硕士学位论文全文数据库”。本人承诺:已提交的学位论文电子版与印刷版论文的内容一致,如因不同而引起学术声誉上的损失由本人自负。南开大学图书馆在下述范围内免费使用本人作品的电子版:本作品呈交当年,在校园网上提供论文目录检索、文摘浏览以及论文全文部分浏览服务畚那。公开级学位论文全文电子版于提交旰螅谛T巴显许读者浏览并下载全文。注:本协议书对于“非公开学位论文”在保密期限过后同样适用。作者签名:日期:年月虢ù诵槭樽岸┯诼畚氖滓日
糍云Ⅷ甓嘣拢痗日南开大学学位论文版权使用授权书本人完全了解南开大学关于收集、保存、使用学位论文的规定,同意如下各项内容:按照学校要求提交学位论文的印刷本和电子版本;学校有权保存学位论文的印刷本和电子版,并采用影印、缩印、扫描、数字化或其它手段保存论文;学校有权提供目录检索以及提供本学位论文全文或者部分的阅览服务;学校有权按有关规定向国家有关部门或者机构送交论文的复印件和电子版;在不以赢利为目的的前提下,学校可以适当复制论文的部分或全部内容用于学术活动。学位论文作者签名:经指导教师同意,本学位论文属于保密,在年解密后适用本授权书。指导教师签名:解密时间:年月日各密级的最长保密年限及书写格式规定如下:
川年拢H南开大学学位论文原创性声明杨亲毛本人郑重声明:所呈交的学位论文,是本人在导师指导下,进行研究工作所取得的成果。除文中已经注明引用的内容外,本学位论文的研究成果不包含任何他人创作的、已公开发表或者没有公开发表的作品的内容。对本论文所涉及的研究工作做出贡献的其他个人和集体,均己在文中以明确方式标明。本学位论文原创性声明的法律责任由本人承担。学位论文作者签名:
第一章绪论第一节芯勘尘互联网表面可索引的信息——サ男畔⑹强梢怨ǹ7梦实模恍枰8斗鸦蚨┎随着网络的飞速发展,互联网中包含的信息以惊人的速度增长,网络已经趁嫘畔⒌.叮笤加镜愕姆梦柿勘萐镜愀叱ィ⑶成为一个名副其实的巨大的信息资源库。为了帮助人们在这个信息的海洋中找到自己需要的信息,出现了搜索引擎。但是,目前主流的搜索引擎还只能搜索褂写罅扛呒壑怠⒏咧柿康男畔⑽法被索引。这是因为这些信息隐藏于网络的深处,它们没有静态链接,需要用户向查询接口提交查询,由站点的后台数据库动态产生返回的页面。这类页面被称为騂趁嫱ǔS删蔡唇硬乘阉饕嫱ü莱娉绦蚺佬姓个页面来创建页面索引。隨诒