1 / 51
文档名称:

基于核密度估计理论多数据流聚类研究.pdf

格式:pdf   页数:51页
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

基于核密度估计理论多数据流聚类研究.pdf

上传人:2028423509 2014/8/5 文件大小:0 KB

下载得到文件列表

基于核密度估计理论多数据流聚类研究.pdf

文档介绍

文档介绍:中山大学
硕士学位论文
基于核密度估计理论的多数据流聚类研究
姓名:谢益煌
申请学位级别:硕士
专业:计算机软件与理论
指导教师:印鉴
20060401
摘要基于核密度估计理论的多数据流聚类研究基于数据的空间划分网格技术出发,提出了一种多数据流聚类的方法一一聚类计算机软件与理论硕士生:谢益煌指导教师:印鉴教授近年来,处理无限的连续数据流的应用日益流行,比如网络日志、传感器网络等。数据流聚类鸾コ晌J萃诰蛄煊虻娜鹊阊芯课题之~,由于数据流的数据量无限、对算法的响应要求很高,而且通常只能对数据访问一次,而传统的聚类算法对快速变化的数据流进行在线分析的支持存在着很多限制,急需开发适应数据流环境的聚类算法,计算机工作者们面临着新的挑战。本文针对当前比较经典的多数据流聚类蚣埽首先,详细分析了其不足之处:不能过滤独异点、对数据流的压缩保存过于简单和聚类时计算数据流之间的距离的时间复杂度过高等,然后从核密度估计理论和椒ā@砺酆褪笛榻峁明:椒ㄌ峁┝艘恢植凰鹕耸萘鞯氖奔洹⒕嗬胩匦缘目袒椒ǎ痪哂泄滤独异点的能力;聚类的时间复杂度远小于蚣芎途劾嗟木ǘ扔庞贑框架等优点。关键词:多数据流核密度估计数据挖掘中山大学硕士学位论文
甅,::,琫甌,.
点。本文主要考察了当前比较经典的多数据流聚类方法—月舌机数据处理模型——数据流法——提下提供一种数据流的刻画方法:具有独异点过滤的能力;以及聚类的时间复杂近年来,由于硬件技术的高速发展,人们收集数据的能力得到了大大的提高。在现实生活中,我们经常可以碰到这样的情况:大量需要处理的数据以很快的速度产生。例如,油井平台的监控系统以每秒椎乃俾世床枋龅鼻白晖纷刺的信息;美国一条高速公路上的传感器网络每天可以收集到高达几百万条的数据;美国航天宇航局的地球观测系统ü降匚佬号称地球资源技术卫星蚑卫星,平均每天要产生高达的数据。由于所需要处理的数据具有实时性、连续性、有序性傻酱锸奔湟硎净蛳允镜由时间戳决定敲窗凑沾车氖菘庥τ媚J剑惺萃暾卮娲⒌奖地,再由计算机仔细处理,已成为不可能完成的任务。因此,我们迫切需要一种新的解决方案。为了解决如何管理这些具有实时性、连续性、有序性、大量并且快速产生的数据,以及如何对这些数据进行分析的问题,计算机科学家们提出一种新的计算U庵质荽砟P妥畲蟮奶氐阍谟冢待处理的数据不再静态、固定地存储在可多次、随机访问的介质中,而是以一种动态、流式的形式出现,对数据只能顺序、一次或有限次地访问。W罱难芯报告表明,数据流已经成为新一代计算机科学理论和应用的热点之一。数据流挖掘是数据挖掘在数据流模型上的应用,是当前数据挖掘的前沿研究方向之一。其中,如何在数据流中进行聚类分析更是数据流挖掘中的一个研究热蚣堋啊埃晗阜治銎洳蛔阒Γ缓蟠雍嗣芏裙兰评砺酆突谑莸目间划分网格技术出发,结合数据流自身的特点,提出了一个新的多数据流聚类方椒ǎ⑼ü砺酆实验证明,该算法相比蚣埽芄辉诓凰鹕耸萘鞯氖奔洹⒕嗬胩匦缘那猄中山大学硕士学位论文基于核密度估计理论的多数据流聚娄研究
度远小于蚣芤约熬劾嗟木ǘ扔庞贑框架等。中山大学硕士学位沦文甚于核密度估汁理论的多数据流聚娄研究
——从大量数据中提取或“发掘”知识一的出现,引起了人们广泛的关注,导第引言数据挖掘概述数据挖掘简介集、存放在大型和大量的数据库中,却由于缺乏将这些数据转换成有价值的信息体的说应是从数据库中对数据进行处理,从而获得隐含的、事先未知的、潜在的随着计算机技术的飞速发展和应用的不断普及,人们产生和收集数据的能力迅速提高,利用计算机提供的各种工具来获得他们所感兴趣的信息。一方面在商业管理、政府办公、科学研究和工程开发等各个领域中,每天都会产生大量的数据,这些数据阻数字化的形式存储起来,并根据需要以电磁媒介加以传播。另一方面,支持信息共享和传播的互联网技术近年来在世界范围内发展十分迅速,互联网加速了信息在世界范围内的流动,形成了信息的海洋。数据的丰富带来了对强有力的数据分析工具的需求,传统的数据库查询手段已经很难满足人们的需要,大量的数据被描述为“数据丰富,但信息贫乏”“?焖僭龀さ暮A渴菔和知识的新技术和自动化工具,使得收集在大型数据库中的数据变成了“数据坟墓”。人们迫切需要一种能够对庞大的数据进行更高层次处理的技术,从中找出规律和模式,以帮助人们更好地利用数据进行决策管理和研究,而数据挖掘技术致了数据挖掘研究的蓬勃发展。数据挖掘通常又称为数据中的知识发现,狭义上是指从数据库提取知识,具而又是非常有用的知识:广义上来说,数据挖掘是从存放在数据库、数据仓库或者其他信息库中的大量数据中挖掘有趣知识的过程。数据挖掘还有很多近似的术语,如从数据库中发现知识⑹莘治觥⑹