文档介绍:该【机器学习之聚类分析 】是由【wyj15108451】上传分享,文档一共【48】页,该文档可以免费在线阅读,需要了解更多关于【机器学习之聚类分析 】的内容,可以使用淘豆网的站内搜索功能,选择自己适合的文档,以下文字是截取该文章内的部分文字,如需要获得完整电子版,请下载此文档到您的设备,方便您编辑和打印。主讲人:吕朝晖西北大学智能信息处理实验室聚类分析ClusteringAnalysis什么是聚类壹距离度量方法貳几种常见的聚类方法叁练习肆目录概述监督学习(supervisedlearning)无监督学习(unsupervisedlearning)半监督学习(Semi-SupervisedLearning)概述监督学习(supervisedlearning)从给定的训练数据集中学习出一个函数(模型参数),当新的数据到来时,可以根据这个函数预测结果监督学习就是最常见的分类问题监督学习的目标往往是让计算机去学习我们已经创建好的分类模型最典型的算法是KNN和SVM非监督学习(unsupervisedlearning)输入数据没有标记,也没有确定的结果01样本数据类别未知,需要根据样本间的相似性对样本集进行聚类02非监督学习目标不是告诉计算机怎么做,而是让计算机自己去学习怎样做03无监督学习的方法分为两大类:基于概率密度函数估计的直接方法基于样本间相似性度量的简介聚类方法:设法定出不同类别的核心或初始内核,然后依据样本与核心之间的相似性度量将样本聚集成不同的类别非监督学习(unsupervisedlearning)什么是聚类?“物以聚类,人以群分”所谓聚类,就是将相似的事物聚集在一起,而将不相似的事物划分到不同的类别的过程,是数据分析之中十分重要的一种手段。在图像分析中,人们希望将图像分割成具有类似性质的区域在文本处理中,人们希望发现具有相同主题的文本子集在顾客行为分析中,人们希望发现消费方式类似的顾客群,以便制订有针对性的客户管理方式和提高营销效率这些情况都可以在适当的条件下归为聚类分析什么是聚类?聚类就是将数据集中的样本划分为若干个通常不相交的子集,每个子集成为一个“簇”(Cluster)。聚类分析(ClusteringAnalysis)聚类的相似性度量欧氏距离(EuclideanDistance)欧氏距离是最易于理解的一种距离计算方法,源自欧氏空间中两点间的距离公式。两个n维向量a(x11,x12,…,x1n)与b(x21,x22,…,x2n)间的欧氏距离:010302