文档介绍:基于查询接口的 Deep Web 模式匹配方法研究
中文摘要
因特网的迅猛发展,给人们带来了海量的信息,这些 Web 信息大部分隐藏在各
类在线数据库中,只有通过查询接口才能获取,因此被称为 Deep Web。由于 Deep Web
信息增长速度快、质量高、覆盖面广,已成为人们获取信息的重要来源,为了让人们
方便、高效地利用这些资源,我们需要对这些 Deep Web 信息进行集成。
Deep Web 查询接口的模式抽取和匹配是信息集成的关键。本文针对 Deep Web
查询接口的模式抽取和匹配技术进行深入学习和研究,提出了相关算法和解决方案,
有效地解决了现有方法的局限性。本文主要研究工作如下:
(1) 介绍 Deep Web 相关知识和国内外研究情况,然后对传统的模式匹配方法和
面向 Deep Web 模式匹配方法进行比较和分析。通过总结现有方法的优缺点,力求从
中探索出新的模式匹配思路和方法。
(2) 针对现有模式抽取方法对接口结构特征忽略的问题,提出一种基于空间聚类
的 Deep Web 查询接口模式抽取方法。该方法结合查询接口中元素的空间位置关系,
将元素块之间的最小欧式距离作为参考依据,以聚类方法为基础,解决了 Deep Web
查询接口模式中逻辑属性的抽取问题。
(3) 针对大规模查询接口模式匹配的低效率问题,提出一种基于关联矩阵的 Deep
Web 查询接口模式匹配方法。该方法将查询接口模式转换为正负关联矩阵,并利用正
关联矩阵挖掘组属性,负关联矩阵挖掘同义属性,高效解决了 Deep Web 查询接口复
杂模式匹配问题。
(4) 根据上述研究,设计并实现了一个面向领域的 Deep Web 信息集成系统。
本文还对文中提出的方法和技术进行了实验设计,通过对实验结果的分析进一步
验证了本文提出的技术方法是行之有效的。
关键词:Deep Web,查询接口,模式抽取,模式匹配
作 者:龚桂芬
指导教师:伏玉琛
Research on Method of Deep Web Schema Matching
Based on Query Interface
Abstract
With the rapid development of Internet, it brings us a flood of information. But most of
these Web information is hidden in various online databases, and only accessible through
the query interface, therefore it is known as Deep Web. Due to the growth speed, high
quality and wide coverage of Deep Web information, it has become an important source of
information. In order to allow people to use these resources easily and efficiently, it is
necessary for us to integrate the Deep Web information.
Deep Web schema extraction and matching on the query inter