文档介绍:摘 要
DeepWeb 查询接口的模式匹配研究
随着互联网和计算机学科技术的超快速发展,Web 网页信息是通过静态和动
态的 2 种方式向服务器端发布网页信息,其发布的在网络数据库中网页数据量十
分可怕的,但是,存在服务器上的网页可以分为浅层网 SurfaceWeb 和深度网
DeepWeb 两种,Surface Web 则是通过一种静态的链接方式即可被访问到的网页,
SurfaceWeb 网页信息则可以被大多数的搜索引擎抓取网页内容,而相对于
SurfaceWeb 而言,DeepWeb 则是指存在服务器上的某些的网络数据库,那么,
对于这些网络数据库来说,其网页内容是根据用户查询条件动态可变的,这些网
络数据库并不能被传统的搜索引擎抓取到信息,DeepWeb 中潜藏更大价值的数
据信息。
目前,越来越多人们获取信息的主要来源是 DeepWeb,而网页信息内容则
是以结构化的分布形式存储到网络数据库之中。DeepWeb 中包含着海量的数据
信息,很高质量的数据信息隐藏在 DeepWeb 中,如何在 DeepWeb 中快速有效地
获取高质量的数据信息?DeepWeb 却不能被传统搜索引擎搜索到隐藏在深度网
中数据,研究 DeepWeb 查询结果的目的是有助于实现对 DeepWep 中的数据信息
的自动抽取,可以更快捷、更准确地获取知识。
在 form 表单中体现用户多种查询条件组合,由于 DeepWeb 只关注于某个领
域,因此,本文将引入 WordNet 的语义关系作为 DeepWeb 查询接口表单模式匹
配过程。本文将会提出一种研究 DeepWeb 查询接口的模式匹配的新方法,论文
框架包括 4 个方面:
1)对网页文档中 form 表单的进行查询接口表单的定位与识别,并通过一种
启发式规则排除非查询接口的 form 表单,获取到存在查询接口表单位置列表;
2)分析并排除有效的查询接口表单属性并进行解析操作,获得查询接口中表
单的文本标记和控件标记信息;
3)基于 HTML 内部编码规则和网页视觉单元内部存在的规则进行查询接口
中 form 自动抽取表单属性;
4)在 WordNet 的指导控制下定位与识别、抽取表单属性信息中的各种语义关
系,然后,根据它们之间的语义关系进行属性关系重组,获得语义关系上表单匹
配模式。
本文设计一种基于 WordNet 的 DeepWeb 查询接口的模式匹配方法研究,并
I
实现了定位于识别表单位置、匹配文本标签与控件标记的语义相似度的基础之
上,本文又提出一种新的查询接口表单属性匹配的新方法,更好地实现了各个语
义标签与控件标签之间的语义相似度计算和查询接口的属性匹配模式,实验结果
分析表明,这种算法的实际应用是有效可行的。
关键词:
DeepWeb,查询接口,模式匹配,WordNet
II
Abstract
Research on DeepWeb Query Interface of Pattern Matching
With the rapid development of the Internet and Computer Science Technology, the
two ways of static and dynamic that web information is released to the server,
Webpage numbers is very terrible that Webpage is released in netw