文档介绍:1第四章无监督学****监督学****与无监督学****监督学****发现数据属性和类别属性之间的关联模式。并通过利用这些模式用来预测未知数据实例的类别属性。无监督学****数据没有目标属性。发现数据中存在的内在结构。2聚类聚类(Clustering)是一种发现数据中的相似群(聚类,clusters)的技术。处于相同聚类的数据实例彼此相似,处于不同聚类中的实例则彼此不同。聚类通常被称为无监督学****在聚类中那些表示数据类别的分类或分组信息没有事先给出。由于历史的原因,聚类和无监督学****的关系更加紧密,甚至被认为是同义词。事实上,关联规则挖掘也是无监督学****本章主要介绍聚类算法。3聚类是一个将数据集中在某些方面相似的数据成员进行分类组织的过程。一个聚类就是一些数据实例的集合这个集合中的元素彼此相似;与其他聚类中的元素不同。聚类的相关文献中,一个数据实例有时被称作对象——数据实例很可能代表现实世界中的一个对象。有时也被称作数据点——数据实例可以被看作是r维空间中的一个点,其中r表示数据的属性个数。,一个二维数据集,由三组数据点(聚类)组成。5聚类的目的来自不同应用领域的真实实例。实例1:根据身材把人分组的方法通常就采用聚类。T恤分“小号”、“中号”、“大号”。为每个顾客量身定做:太贵仅一种型号的T恤:大多数人不合身。实例2:在营销学中,对客户进行分割,为每组客户指定一个套营销策略,也是采用聚类来完成。6实例3:对给定文本,需要根据它们内容的相似性来进行组织。建立一个主题层次。事实上,聚类是数据挖掘技术中应用最广泛的技术之一。发展历史长,应用领域广泛。比如:医学类、心理学、植物学、社会学、生物学、营销学、保险、图书馆等。近年来,在线文档的快速发展,文本聚类研究成为关注的重点。7聚类的概述聚类算法划分聚类层次聚类…(密度聚类)距离函数(相似性或相异性):度量两个数据点(对象)的相似程度。聚类评价类内差异(聚类内部距离):最小化类间差异(聚类外部距离):最大化聚类结果的质量与算法、距离函数和应用领域有很大关系。8k-均值算法是划分聚类算法。k-均值算法根据某个距离函数反复地把数据分入k个聚类中。设数据点(或实例)的集合D为{x1,x2,…,xn},其中,xi=(xi1,xi2,…,xir)是实数空间XRr中的向量。并且r表示数据的属性数目(数据空间维数)。k-均值算法把给定的数据划分为k个聚类。每个聚类中有一个聚类的中心(也称聚类中心),它用来表示某个聚类,这个中心是聚类中所有数据点的均值。K是由用户指定的。-均值聚类9k-均值算法给定k,k-均值算法执行步骤:随机选取k个数据点作为初始聚类中心。计算每个数据点与各个中心之间的距离,把每个数据点分配给距离它最近的聚类中心。数据点分配以后,每个聚类的聚类中心会根据聚类现有的数据点重新计算。这个过程将不断重复知道满足某个终止条件为止。10算法内容