文档介绍:北京化工大学位论文原创性声明本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立进行研究工作所取得的成果。除文中已经注明引用的内容外,本论文不含任何其他个人或集体已经发表或撰写过的作品成果。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。作者签名:速塾日期:兰!!!:主:多里关于论文使用授权的说明学位论文作者完全了解北京化工大学有关保留和使用学位论文的规定,即:研究生在校攻读学位期间论文工作的知识产权单位属北京化工大学。学校有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许学位论文被查阅和借阅;学校可以公布学位论文的全部或部分内容,可以允许采用影印、缩印或其他复制手段保存、汇编学位论文。保密论文注释:本学位论文属于保密范围,在土年解密后适用本授权书。非保密论文注释:本学位论文不属于保密范围,适用本授权书。作者签名:坌逝导师鞯誓驾险日期:2竺!!:』!呈翌日期:兰!!!:全:多呈学位论文数据集中图分类号TP39l学科分类号52060论文编号1001020110759密级公开学位授予单位代码10010学位授予单位名称北京化工大学作者姓名张蓬飞学号2008000759获学位专业名称计算机应用技术获学位专业代码081203课题来源自选项目研究方向人工智能理论与应用论文题目D唧w曲数据源聚类与查询转换的研究关键词Deepw曲,W曲数据库,频繁项集,查询转换论文答辩日期201l_05-26幸论文类型应用研究学位论文评阅及答辩委员会情况姓名职称工作单位学科专长指导教师朱群雄教授北京化工大学智能系统与数据挖掘评阅人l许南山副教授北京化工大学网络数据库评阅人2王雪晶副教授北京化工大学图像处理与模式识别评阅人3评阅人4评阅人5椭员会捕赵瑞连教授北京化工大学软件测试答辩委员l许南山副教授北京化工大学网络数据库答辩委员2王雪晶副教授北京化工大学图像处理与模式识别答辩委员3李辉副教授北京化工大学密码学理论与应用答辩委员4肖亮副教授北京化工大学核磁共振医学成像答辩委员5注::-《中国图书资料分类法》()《学科分类与代码》.Ⅲ4ⅢY摘要DeepWeb数据源聚类与查询转换的研究摘要随着互联网的日益增长,W|eb已经成为人们获取信息的重要途径。W曲分为Su渤ceW,eb和De印Wreb两大类。相对而言,DeepW'eb蕴含了更为丰富的资源,而且价值更高。然而W-eb数据库分布在各个领域,只能通过查询接口进行访问,所以必须通过数据集成后才能更好的利用。将数据库按照其所属领域进行划分是De印W曲数据集成中一个十分重要的环节。由于相同领域的数据库查询接口所在页面的标题和关键字往往会共享一些词汇,而这些词汇又在很大程度上反映了数据库的领域。因此,本文提出了一种基于频繁项集的聚类算法,对标题和关键字等文本提示信息进行聚类,从而实现对数据库的划分,可以使数据库的信息更好的被利用。在新算法中,频繁项集的个数决定了聚类的个数,并且频繁项集可以作为标签来描述聚类。实验验证,。另外,查询转换也是数据集成的一个重要组成部分,。由于Wreb查询接口的异质性很高,因此对查询的转换难度很大,通常只能做近似转换。本文对查询转换问题进行了模型化及较深入的研究,提出了查询转换器的解决方案,解决了查询转换中的源的异质性和领域的可移植性等北京化工大学硕士学位论文问题,有效的改善了查询的精度和性能。关键词:De印Wreb,Wreb数据库,频繁项集,查询转换ABSTRACTRESEARCHoNDATASoURCECLUSTE砒NGANDQUERYINTERFACECoNVERSIoNoFDEEPWEBABSTRACTWiththefastincreaseoftheIntemetresource,|ebcanbediVidedintotwogroups:Su血ceW,ebandDe印W|-,it’snecessarytobuildaninte黟ationsystemformaHngbetteruseofO玛anizingthedatabasebyitsdomainisanimportantpanofDe印W|ebd