文档介绍:南开大学
硕士学位论文
基于LSPX模型的XML结构相似度计算与快速聚类
姓名:刘众奇
申请学位级别:硕士
专业:计算机软件与理论
指导教师:袁晓洁
20090501
摘要当今的信息时代,信息交互愈加频繁,丫晌P畔⒈硎竞褪萁换虽然数据结构聚类与畔⒓焖饔凶鸥髯缘难芯磕谌莺筒煌氖现目标,但是它们却都依赖于共同的研究基础,即良好的萁峁贡硎相似度计算方法的基础上,提出了一种新的萁峁贡硎灸P汀!狶模型构造迅速,且基于该模型的聚类算法真正做到了萁峁咕劾的标准。随着大量信息的出现,莸拇硪仓鸾コ晌H嗣枪刈⒌焦点,由此衍生出荽淼牧酱笱芯糠较颍琗萃诰蛴信息检索。在数据挖掘中,数据的结构聚类仍然是当前的主要研究任务,而在畔⒓焖髦校桓鲐酱饩龅慕沟阄侍馐墙峁鼓:檠肫ヅ洹模型、基于模型的相似度计算,以及对数据结构的快速聚类等等。论文针对该基础问题进行研究与探讨,在总结和分析现有的荼硎灸P秃模型,并定义了其上的相似度计算方法,最后给出了一种快速的增量式聚类算法。模型简洁、完整地表示了莸慕峁剐畔ⅰ;诟媚P偷南嗨度计算,不仅很好地结合了语义信息,使计算结果更加准确;还将计算的粒度有效地扩展到聚类级别,省去了传统的“逐对”计算方式所导致的时间消耗,极大地缩短了整个聚类过程。基于模型的增量式聚类算法,在保证聚类结果质量的基础上,大大地提高了萁峁咕劾嗟乃俣取J笛榻峁砻鳎的快速、有效、实用。这些都为数据的后续处理和研究工作打下了良好而坚实的基础。关键词:萃诰騒信息检索模型增量式聚类
狶籌騏..篨,;.瑃瓹甆.,瑂.,..;
学位论文作者签名:易虻幼叫年多月午日南开大学学位论文版权使用授权书本人完全了解南开大学关于收集、保存、使用学位论文的规定,同意如下各项内容:按照学校要求提交学位论文的印刷本和电子版本;学校有权保存学位论文的印刷本和电子版,并采用影印、缩印、扫描、数字化或其它手段保存论文;学校有权提供目录检索以及提供本学位论文全文或者部分的阅览服务;学校有权按有关规定向国家有关部门或者机构送交论文的复印件和电子版;在不以赢利为目的的前提下,学校可以适当复制论文的部分或全部内容用于学术活动。经指导教师同意,本学位论文属于保密,在年解密后适用本授权书。指导教师签名:学位论文作者签名::
学位论文作者签名:毒/\友而暌自南开大学学位论文原创性声明本人郑重声明:所呈交的学位论文,是本人在导师指导下,进行研究工作所取得的成果。除文中已经注明引用的内容外,本学位论文的研究成果不包含任何他人创作的、已公开发表或者没有公开发表的作品的内容。对本论文所涉及的研究工作做出贡献的其他个人和集体,均已在文中以明确方式标明。本学位论文原创性声明的法律责任由本人承担。
南开大学学位论文电子版授权使用协议本人完全了解《直珏丕堂图壹焦羞王堡壶沟┨媒雇救慰鸨ず同意论文《》系本人在南开大学工作和学习期间创作完成的作品,并已通过论文答辩。本人系本作品的唯一作者谝蛔髡,即著作权人。现本人同意将本作品收录于“南开大学博硕士学位论文全文数据库”。本人承诺:已提交的学位论文电子版与印刷版论文的内容一致,如因不同而引起学术声誉上的损失由本人自负。南开大学图书馆在下述范围内免费使用本人作品的电子版:本作品呈交当年,在校同网上提供论文目录检索、文摘浏览以及论文全文部分浏览服务畚那。公开级学位论文全文电子版于提交旰螅谛T巴显许读者浏览并下载全文。注:本协议书对于“非公开学位论文诒C芷谙薰笸视谩院系所名称:作者签名:学号:日期:年月虢ù诵槭樽岸┯诼畚氖滓日
第一章绪论第一节研究背景与研究意义时期。的出现更是提供了一个手段和平台,使得众多的用户之间可以更的不断发展与普及,信息化已经成为人类社会经济发展与社会进步的重可扩展标记语言一个重要分支,同时又由于荼旧硭哂械慕峁够卣鳎沟肵数据的结构聚类成为萃诰蜓芯苛煊蛑械娜鹊阄侍狻莸募本缭龀に吹牧硪桓鑫侍猓褪侨绾蜗翊车男畔⒓焖琁系统一样,方便而且快速地检索出用户感兴趣的信息。于是,萘煊蚩J加氪彻霞际跸嘟岷希纱艘⒘薠数据的另从世纪年代开始,信息产业进入了一个历史上前所未有的飞速发展为方便和快捷地进行广泛缡奔浜涂缈占的资源共享和信息交互。由此,也逐步演变成为获取、发布和传递信息的重要工具。随着信息技术和要组成部分。随着信息交换的愈加频繁,网络上的信息量呈几何级数的趋势增长,由此带来的一个难题就是信息的表示以及数据交换的标准。某鱿质得这一难题得以有效地解决。,简称荳组织推荐的一种通用标记语言,从发展而来。其既具有的强大数据描述功能和可扩展性,同时又具有的简单性。但是与传统的相比,哂胁豢杀饶獾挠攀疲荳推出的最具影响力和远见卓识的标准之一。窘杵渥悦枋鲂浴⒖衫┱剐砸约鞍虢峁够忍氐悖丫晌P畔⒈硎和数据