1 / 16
文档名称:

浅谈聚类算法.ppt

格式:ppt   大小:1,207KB   页数:16页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

浅谈聚类算法.ppt

上传人:文库新人 2021/11/7 文件大小:1.18 MB

下载得到文件列表

浅谈聚类算法.ppt

相关文档

文档介绍

文档介绍:浅谈聚类算法
第一页,共16页

数据挖掘:指从大型数据库或数据仓库中提取隐含的、先前未知的、对决策有潜在价值的知识和规则。它是人工智能和数据库发展相结合的产物,是国际上数据库和信息决策系统最前沿的研究方向之一。数据挖掘主要的算法有分类模式、关联规则、决策树、序列模式、聚类模式分析、神经网络算法等等。
聚类是数据挖掘中的一个非常重要的研究课题,广泛应用于各个领域,它对未知数能达到合理的效果。研究和运用聚类是完成数据挖掘任务的重要手段,因此对聚类的研究具有重要的理论价值和现实意义。
第二页,共16页

俗话说:“人以群分,物以类聚”。聚类就是利用计算机技术来实现这一目的的一种技术。聚类是指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过程。
聚类与分类不同:分类问题中我们知道数据集的分类属性。而聚类问题则需要我们从数据集中找这个分类属性。
迄今为止, 年关于聚类所下的定义:一个类簇内的实体是相似的,不同类簇的实体是不相似的;一个类簇是测试空间中点的会聚,同一类簇的任意两个点间的距离小于不同类簇的任意两个点间的距离;类簇可以描述为一个包含密度相对较高的点集的多维空间中的连通区域,它们借助包含密度相对较低的点集的区域与其他区域(类簇)相分离.。
聚类的标准是使簇内相似度尽可能大,簇间相似度尽可能小。
第三页,共16页

伸缩性:聚类算法对小数据集和大规模数据集要同样有效。
处理不同类型属性的能力:实际应用要求算法能够处理不同类型的数据。
能发现任意形状的聚类:聚类特征的未知性决定聚类算法要能发现球形的、嵌套的、中空的等任意复杂形状和结构的聚类。
使决定输入参数的领域知识最小化:聚类算法要尽可能地减少用户估计参数的最佳取值所需要的领域知识。
能够有效地处理噪声数据:聚类算法要能处理现实世界的数据库中普遍包含的孤立点,空缺或者错误的数据。
第四页,共16页
对于输入纪录的顺序不敏感:聚类算法对不同的次序的记录输入应具有相同的聚类结果。
高维性:聚类算法不仅要擅长处理低维的数据集,而且要能处理高维、数据可能非常稀疏且高度偏斜的数据集。
基于约束的聚类:聚类结果既要满足特定的约束。又要具有良好聚类特性。
可解释性和可用性:聚类结果应该是可解释的、可理解的和可用的。
第五页,共16页

没有任何一种聚类技术(聚类算法),,这里将聚类算法大致分成层次化聚类算法、划分式聚类算法、基于密度和网格的聚类算法和其他聚类算法.
第六页,共16页
划分式聚类算法
划分聚类算法把数据点集分为k个划分,每个划分作为一个聚类。它一般从一个初始划分开始,然后通过重复的控制策略,使某个准则函数最优化,而每个聚类由其质心来代表(K-MEANS算法),或者由该聚类中最靠近中心的一个对象来代表(K-MEDOIDS算法)。划分聚类算法收敛速度快,缺点在于它倾向于识别凸形分布大小相近、密度相近的聚类,不能发现分布形状比较复杂的聚类,它要求类别数目k可以合理地估计,并且初始中心的选择和噪声会对聚类结果产生很大影响。
划分式聚类算法需要预先指定聚类数目或聚类中心,通过反复迭代运算,逐步降低目标函数的误差值,当目标函数值收敛时,得到最终聚类结果。
第七页,共16页
K均值聚类
1967 年,MacQueen 首次提出了K均值聚类算法(K-means 算法).迄今为止,很多聚类任务都选择该经典算该算法的核心思想是找出K 个聚类中心C1,C2,…,Ck,使得每一个数据点xi 和与其最近的聚类中心Cv的平方距离和被最小化(该平方距离和被称为偏差D).
K 均值(K-means)聚类算法(对n 个样本进行聚类)
1[初始化]. 随机指定K 个聚类中心(C1,C2,…,Ck);
2[分配xi]. 对每一个样本xi,找到离它最近的聚类中心Cv,并将其分配到Cv所标明类;
3[修正Cw]. 将每一个Cw移动到其标明的类的中心;
4[计算偏差].
5[D 收敛?]. 如果D 值收敛,则return(C1,C2,…,Ck)并终止本算法;否则,返回步骤K2.
第八页,共16页
K-means 算法的优点与不足。优点:能对大型数据集进行高效分类,其计算复杂性为 O(tkmn),其中,t 为迭代次数,K 为聚类数,m 为特征属性数,n 为待分类的对象数,通常K、m、t<<n。在对大型数据集聚类时,K-means

最近更新

全科医生培养中的人文关怀与沟通技巧 28页

全科医学技术的新进展与应用 20页

儿童骨科护理进修报告疾病诊断和治疗方案 30页

儿童哮喘的诊断与康复策略 26页

儿保骨科护理进修报告儿童骨骺脱位的预防与处.. 28页

住院医师规范化培训年度科研成果推广总结 31页

伤口处理的重要性及其在医疗领域的核心地位 27页

中国历史文化知识竞赛100题含完整答案【夺冠系.. 14页

县乡教师选调考试《教师职业道德》题库附参考.. 43页

科普知识竞赛题库100道含完整答案【名校卷】 18页

伍德灯在结缔组织病诊断中的新应用研究 27页

伍德灯在儿童白内障手术中的应用效果观察 27页

海口酒店研究报告 7页

沈阳疫情复工方案 5页

气力输送方案 6页

桥梁创新研究报告 8页

权力分配方案 6页

施工成品保护方案 6页

方姓的研究报告作文开头 5页

产品知识与销售讲解培训 25页

二手车交易行业创业计划书 32页

了解急诊分诊的基本原则 30页

《小摄影师》导学案设计 6页

储罐区土建施工组织设计-混凝土施工方案(2021.. 49页

临床医学技术培训中的沟通与协作技巧(1) 25页

临床医学专业自评报告解读时的教学质量保障机.. 24页

中小学人工智能教育项目助力学校进入智能化时.. 27页

中国航天事业的人才培养与终身学习机制 28页

中医诊断学问诊中常见的中医药研究辨识 31页

2024年综合基础知识试题及答案 42页