文档介绍:JournalofCompulerApplications计算机应用,(6):1688-1691
ISSN1001-9081
CODENJYIIDU
2012-06-01
http://wwu*.j(>
tion・DualCorrelatedMining(DCM)isal),suchasinefficiencyandinaccuracyinmatching・Therefore,anewmethodbasedonmatchingdegreeandsemanticsimilaritywaspresentedinthispapertosolvetheproblems・Firstly,themethodusedcorrelationmatrixtosavetheassociationrelationshipamongattributes;andthen,matchingdegreewasappliedtocalculatethedegreeofcorrelationbetweenattributes;atlast,semanticsimilaritywasusedtoensuretheaccuracyoffinalresults・TheexperimentalresultsonBAMMdatasetsofUniversityofIllinoisshowthattheproposedmethodhashigherprecisionandefficiencythanDCMandimprovedDCM,andindicatethatthemethodcandealwiththequeryinterfaceschemamatchingproblemsverywell.
Keywords:DeppWeh;schemamatching:matchingdegree;opmanticsimilarity
0引言
Web中的信总按其深度不同可分为SurfaceWeb和DeepWE两部分■。随若大重在线Web数据库的出现,DeepWeb缁育的信息蛍也飞跃式增氏。据2000年估计W,Web上已有43000-96000的Web数据源,近5500亿的DeepWeb页面•是SurfaceWeb的500假而据Google2007年的估lH2\DeepWeb涵盖的数据源已经增长到约25000000。DeepWeb中的信息不仅规模巨大而且覆盖面广,几乎包含了现实生活的各个飲域•见令人关注的是•其中包含了大量的结构化数据,而且质斌很岛。因此,DeepWeb数据集成为了当的信息领域的-个热点问题⑶。
接【」间模式兀配问题是解决DeepWeb数据集成的关键⑷。模式匹配是发现不同杏询接口1:貝有语义关联的属性对•山丁各个本地接口的异构和多样性•使得发现按口属性间的匹配变得困难重重•同时匹配过程