文档介绍:DeepWeb查询接口及其识别算法摘要:查询接口是DeepWeb的唯一入口,在对后台数据库展开研究时,查询接口的识别凸显重要。该文首先分析了查询接口的结构特点,并总结出一系列可用于进行查询接口识别的启发式规则,并通过概率计算对规则的使用顺序进行了优化,实验证明,具有较好的使用价值。关键词:DeepWeb;查询接口;表单;正则表达式中图分类号:TP391文献标识码:A文章编号:1009-3044(2011)22-5422-03 DeepWebQueryInterfaceandIdentificationAlgorithms WANGCai-xia1,GAOMing2 (,TongjiUniversity,Shanghai201804,China;,TongjiUniversity,Shanghai201804,China) Abstract:QueryinterfaceistheonlyentranceofDeepWeb,soastudyofthebackgrounddatabase,,andsummarizesaseriesofqueryinterfacecanbeusedforidentificationHeuristicrules,andrulesthroughtheuseofprobabilitysequenceisoptimizedexperimentalresultsshowthattheuseofgoodvalue. Keywords:DeepWeb;interface;form;regularexpression 通过由网站提供的查询接口提交查询来获取数据是DeepWeb中信息获取的主要方式,而且自动抽取查询接口中的属性并生成合法有效的查询条件是提升访问DeepWeb能力的有效方法。因此数据源的发现与查询接口的识别在DeepWeb应用系统中处于特别重要的地位,也是查询接口集成阶段和信息获取阶段的基础。从形式上来讲,DeepWeb查询接口均以表单(form)的形式出现在页面中,因此利用表单的结构特征作为DeepWeb查询接口的判断依据是一种合理的解决方式。但并不是所有的表单都是查询接口,如用户注册、bbs留言板、搜索引擎等都以表单的形式出现,却均不属于查询接口的范畴。由此,需要对Web中的表单进行提取和识别,识别出哪些是真正的查询接口。由于DeepWeb蕴含了数量众多的查询接口,且这些查询接口又时刻处于变化之中,这又无形中增加了识别查询接口的难度。 1数据源与查询接口 [1]:和invisible-这样的站点中获取;二是首先收集策略遍历所有IP;三是利用搜索引擎进行搜索Web数据库所在的网站。第三种方案由于必须向搜索引擎提交查询,因此这种方案是基于某个领域的Web数据库的发现,因而更加具有实际应用价值。其关键在于如何向搜索引擎提交有效的查询,使得含有Web数据库的网站尽可能多地出现在查询结果中,并使其排名尽量靠前。同时,部分研究人员在传统搜索引擎爬虫的基础上开发出了DeepWeb爬虫,并通过对网页的爬取、分析来定位DeepWeb数据源[2-3],在此基础上文献[4-6]增加了对数据源所属主题的分类,使得通过DeepWeb爬虫发现的数据源更加具有针对性,同时也减轻了数据源分类的工作量。 ,通常通过两种方式来实现查询接口的识别: 一类是提交查询法:需通过提交试探性查询,根据返回的结果进行判断是否为DeepWeb查询页面,该方法一般通过表单的结构特征,按照一定的策略自动填写表单,并根据返回结果的情况来对其是否为DeepWeb查询接口进行判断[7],此方法适用于结构简单的搜索页面。此方法虽然加大了网络的开销,但是可以根据返回结果的情况对数据库内容进行分析,从而可以对DeepWeb接口进行较高精度的识别。另一类是非提交查询法:直接利用网页表单的结构信息,如对控件的类型、其内部属性以及描述控件的标签进行特征提取,从而实现对查询接口的判断。当数据库中表结构可以完全由页面表单的特征来表示的时候常采用此方法。由于网页表单很容易获取,并且非提交查询法比较适合对内容和结构多变的表单进行判断,因而大部分研究者倾向采用该方法来识别DeepWeb查询