文档介绍:要关键词:聚类分析空间数据挖掘空间知识发现空间索引地理信息系统摘能力不足,聚类分析大规模空间数据库时的效率有待提高。针对这两方面的弱点,本文介绍素。同时,还模拟电信行业应用的例子阐述和检验这两个算法。计算机存储了大量与地理空间相关的数据。如何有效提取隐含在空间数据库中的空间关系及有趣模式成为数据挖掘领域新兴的研究方向。本论文对应用聚类分析方法挖掘空间知识的问题进行了讨论,将对空间数据库的聚类分析过程分成空间对象聚类和聚类结果分析两个阶段分别进行深入研究,并提出了挖掘空间知识的新算法。在空间对象聚类阶段,本文分析比较了现有的各类聚类算法,认为算法虽然是分析空间数据库较理想的聚类算法,但处理复杂类型空间对象及其属性数据的了带权算法,并提出密度矩形策略算法。蚱圃擞貌裳际踅档臀题规模的传统做法,提出密度矩形的概念并应用四条子策略提高聚类的效率,同时保证聚类质量,并通过真实和人工模拟的测试数据的实验结果验证了母咝浴在对聚类结果分析阶段的研究中,本文首先介绍了识别同簇空间对象共同属性特征的空间聚类属性特征分析算法。然后对空间对象呈现特定属性特征的原因进行了着重研究。根据经验常识提出三条关于空间对象影响力的假设,并在假设基础上建立空间对象影响强度分析模型,提出影响聚类属性的空间对象识别算法。尝试挖掘影响空间对象属性特征的环境因本文工作的意义和价值主要表现在:=档臀侍夤婺L岣呔劾嗨惴ㄐ侍峁┬碌乃路;岣涣丝占渫诰蛩惴ǎ对空间知识发现在电信行业中的应用做了初步尝试。
篠,甅,..,’.珺,,.,,琱..,甌琽琲簅,甀瓸瑂..
第一章前言塞竺皇查兰缋俭美祭堕童空间聚类分析产生的背景目前,在数据挖掘领域已经有许多研究成果成功运用于关系数据库。聚类则是鹆诵畔⒉到绲募ù蠊刈ⅲ渲饕T蛟谟谄惹行枰将大量积累的数据转换成有用的信息和知识。在这些纷杂多样的数据类型中,有一类与位置相关的数据,例如个人的家庭住址、商场公园的位置、行政区划以及交通线路等数据信息,被称之为>菝拦裳綝甑囊黄Q芯勘ǜ兄赋觯涸诩扑慊写娲⒌氖萦ビ氲乩砜间相关:它们之中大部分存储于空间数据库。因此,巨大的潜在需求使得如何有效提取空间数据·库中的隐含知识、空间关系及其他有趣模式成为了数据挖掘领域新兴的研究方向之一。数据挖掘技术中一个重要的研究方向,它对数据对象进行分组簇,使组内各对象间具有较高的相似度,而不同组的对象差别较大。在许多应用中,可以将一个簇中的数据对象作为一个整体来对待。通过聚类,可以识别密集和稀疏的区域,因而发现全局的分布模式及数据属性之间有趣的相互关系。作为一个数据挖掘的功能,聚类能作为一个独立的工具来获得数据分布的情况,通过观察每个簇的特点,集中对特定的某些簇做进一步的分析。此外,聚类还可以作为其它算法纾关联规则和分类脑ご聿街琛但是,空间数据库特有的性质给传统的数据挖掘算法的研究带来新的挑战。具体表现为,其一,空间数据所描述的对象占据空间位置,不具备普通数值型数据可以进行简单加减运算的属性:其二,空间数据库存储着空间对象的空间类型以及这些对象之间复杂的空间关系;其三,空间数据库具有特殊的空间数据索引结构以及访问方式。对空间对象聚类分析主要是要回答以下两个问题。嬖谠跹拇空间聚类算法对空间对象进行划分,发现适合的簇,然后分析每个簇具有的属性特征。.簇为何存在卮鹫飧鑫侍饩褪窃谘罢沂鼓掣隹占淝蚓弑改骋皇粜蕴卣鞯脑騛通常这是受到所处的环境影响所致。对此分析的目的就是要找出起作用的环境影响因素,也即是回答以下子问题。骋桓龃兀私夂退叵底蠲芮械囊蛩赜心男对个具有相同或相似属性特征的簇,有哪些影响因素是它们共同具备的:冉狭礁鍪性特征不同的簇拥有哪些不同的影响因素。因此,空间数据库的聚类分析过程可分为空间对象聚类和聚类结果分析两个阶段,它们分别回答了上述两个问题。从知识发现的角度考虑,后一个问题更有价值。但是分析是需以聚类的结果为基础,只有对空间对象进行合理有效的聚类划分,才能使更深一层的知识发现成为可能,拙近年来,数据挖掘空间数据.:
特征之间关系的一般性经验断言。但是,国黼中的空间数据依据空间概念分层结构热缧姓却不能有效解决。由此,嘲阂提出了聚合体亲近度嘲蝴还提出在聚类算法基础上挖掘空间知识的两种方法一归并空间数据。衡钤诖矯算法的基础上提出新的聚类方法——国内外研究的现状惴ù砗A渴莸木窒轖螅岣吡怂惴ǖ男省基于概化的知识发现方法睿妹嫦蚴粜缘墓槟杉际醮矸强占涫荩缓蠊椴⒖占涫菔迪在效率和实用性上,蟠笥庞谝延械膋中心聚类算法,比如队虲。此外,特征要素,婕用算法寻找导致两个簇相互区别最重要的特征因素。【襰】则研劣的聚类结果使最终的分析结论不可靠。通常空间聚类算法是人们研究的重点。早期聚类分析作为统计学的一个分支,主要集中在基于距离的聚类分析。随着机器学习领域研究的兴起,聚类成为无指导学习囊桓隼印R谰