1 / 4
文档名称:

DeepWeb查询表单属性模式匹配的研究.doc

格式:doc   大小:16KB   页数:4
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

DeepWeb查询表单属性模式匹配的研究.doc

上传人:学习的一点 2021/3/22 文件大小:16 KB

下载得到文件列表

DeepWeb查询表单属性模式匹配的研究.doc

文档介绍

文档介绍:DeepWeb查询表单属性模式匹配的研究
  摘要:本文主要研究关于DeepWeb查询表单属性的模式匹配。首先,能自动识别查询表单位置;其次,根据规则自动抽取表单属性;再次,根据WordNet计算文本标记与控件标记的语义关系以及语义相似度;最后,根据语义关系进行属性关系重组,获得查询表单属性在语义关系上的属性匹配模式,实验表明,本文算法高效可行。
  关键词:DeepWeb 查询接口 WordNet 模式匹配 表单
  中图分类号: 文献标识码:A 文章编号:1007-9416(2015)06-0000-00
  1 引言
  目前,越来越多的信息内容以结构化式、分布式存储于网络数据库中。DeepWeb[1]中包含大量且高质量的数据信息,而DeepWeb却不能被传统搜索引擎搜索到隐藏在深度网中数据,研究DeepWeb查询结果的目的是有助于实现对DeepWep中的数据信息的自动抽取,可以更快捷、更准确地获取知识。
  2 DeepWeb查询表单属性的模式匹配算法
  页面控件是DeepWeb查询接口表单[2]的入口发现区域,用户通过填充表单控件属性值信息,再提交获取查询内容。表单控件标签与文本标签密切关联,并且文本标签用于控件的含义,它们组合构成了表单的基本属性,即是本文研究的查询接口的匹配模式。

   表单区域识别
  由于表单位于网页中之间的代码片段,因此,解析网页时则根据标签对之间进行标记作为表单片段。本文中定义几种属于查询表单的规则:
  规则1:表单按钮控件中显示“查询”等字样属于查询接口表单。
  规则2:在网页中表单属性数大于等于3时则属于查询接口表单。
  规则3:表单中存在“注册”、“登录”字样为非查询接口表单。
   表单接口解析
  在DeepWeb中,,查询接口表单解析是在标记单元为“”或者“>”和“”之间为控件标签元素,而符“>”和“<”之间为文本信息,查询接口表单解析的主要目的也正是基于这两种符号标记单元实现的。
   表单属性的模式匹配算法
  抽取表单属性后,获取属性列表,但是,有些表单属性必须和文本标记的语义关系组合才具有实际意义。DeepWeb查询接口模式匹配是将控件标记和文本标记在语义关系的层次上进行组合,最后,获取查询接口的模式。

  本文中介绍了在表单属性中在语义关系属性类型。
  (1)属性关系:两个文本标记存在属性关系,在WordNet中其语义关系为attribute-of。
  (2)实例关系:两个文本标记存在实例关系,在WordNet中的语义关系为instance-of。
  (3)部分整体关系:两个文本标记存在部分整体关系,在WordNet中语义关系为part-of。
  DeepWeb查询接口模式匹配是基于以上三种语义关系进行表单的模式匹配,并能够从语义层次上实现了查询接口表单的模式匹配算法。查询接口表单模式匹配算法1如下表1。
  3 实验
  在本文中,表单识别是基于主题爬行技术,文中共选取6个不同领域下218个网页,其中Goods(62),Books(44),Music(39),News(34),Jobs(23)以及Mov

最近更新

2024年湖南工业职业技术学院马克思主义基本原.. 13页

2024年湖南第一师范学院马克思主义基本原理概.. 13页

2024年湟源县幼儿园教师招教考试备考题库附答.. 31页

2024年潇湘职业学院马克思主义基本原理概论期.. 12页

2024年牡丹江医学院马克思主义基本原理概论期.. 13页

2024年珠海科技学院马克思主义基本原理概论期.. 12页

2024年甘肃核工业职工大学马克思主义基本原理.. 12页

2024年百色学院马克思主义基本原理概论期末考.. 12页

2024年盱眙县招教考试备考题库带答案解析(夺.. 30页

2024年石河子大学马克思主义基本原理概论期末.. 12页

2024年福建船政交通职业学院马克思主义基本原.. 12页

2024年绥德县幼儿园教师招教考试备考题库含答.. 30页

2024年耿马县招教考试备考题库附答案解析(必.. 30页

2024年芜湖航空职业学院马克思主义基本原理概.. 13页

2024年若羌县招教考试备考题库带答案解析(必.. 31页

2024年菏泽医学专科学校马克思主义基本原理概.. 12页

2024年蔚县招教考试备考题库附答案解析 31页

2024年西宁城市职业技术学院马克思主义基本原.. 13页

2024年西安铁路工程职工大学马克思主义基本原.. 13页

2024年豫章师范学院马克思主义基本原理概论期.. 12页

2024年贵州电子信息职业技术学院马克思主义基.. 12页

2024年赣南医学院马克思主义基本原理概论期末.. 13页

2024年辽宁何氏医学院马克思主义基本原理概论.. 12页

2024年辽宁铁道职业技术学院马克思主义基本原.. 13页

2024年通化师范学院马克思主义基本原理概论期.. 13页

2024年遵义职业技术学院马克思主义基本原理概.. 13页

2024年郑州商贸旅游职业学院马克思主义基本原.. 12页

2024年郴州智能科技职业学院马克思主义基本原.. 12页

2024年重庆城市科技学院马克思主义基本原理概.. 12页

2024年重庆第二师范学院马克思主义基本原理概.. 12页