1 / 9
文档名称:

聚类算法距离矩阵 聚类算法的评估指标.doc

格式:doc   大小:294KB   页数:9页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

聚类算法距离矩阵 聚类算法的评估指标.doc

上传人:小s 2022/6/2 文件大小:294 KB

下载得到文件列表

聚类算法距离矩阵 聚类算法的评估指标.doc

相关文档

文档介绍

文档介绍:聚类算法距离矩阵_聚类算法的评估指标
在学****聚类算法得时候并没有涉及到评估指标,主要原因是聚类算法属于非监督学****并不像分类算法那样可以使用训练集或测试集中得数据计算准确率、召回率等。那么如何评估聚类算法得好坏呢?好的聚类算法,=KMeans(n_clusters=3,random_state=1).fit(X)labels=kmeans_model」abels_prin
ompactness(紧密性)()
CP计算每一个类各点到聚类中心的平均距离CP越低意味着类内聚类距离越近。著名的K-Means聚类算法就是基于此思想提出的。缺点:没有考虑类间效果。
EH任—山II
Tlp=1
eparation(间隔性)()
SP计算各聚类中心两两之间平均距离,SP越高意味类间聚类距离越远。缺点:没有考虑类内效果。
kk
丽=-^―VVIIn;-心II
aviesouldin戴维森堡亍指数)分类适确性指标)()()
其中n是类别个数,是第i个类别的中心,
DB计算任意两类别的类内距离平均距离(CP)之和除以两聚类中心距离求最大值°DB越小意味着类内距离越小同时类间距离越大。该指标的计算公式:
是类别i中所有的点到中心的平均距离;
中心点和之间的距离。算法生成的聚类结果越是朝着类内距离最小(类内相似性最大)和类间距离最大(类间相似性最小)变化,那么Davies-Bouldin指数就会越小。缺点:因使用欧式距离所以对于环状分布聚类评测很差。

unnalidityndeX邓恩指数)(
DVI计算任意两个簇元素的最短距离(类间)除以任意簇中的最大距离(类内)°DVI越大意味着类间距离越大同时类内距离越小。“m血闵<^01必2:j)
其中
表示类别,之间的距离;
表示类别内部的类内距离:
类间距离可以是任意的距离测度,例如两个类别的中心点的距离;
类内距离可以以不同的方法去测量,例如类别kk中任意两点之间距离的最大值。
因为内部评估方法是搜寻类内相似最大,类间相似最小,所以算法生成的聚类结果的Dunn指数越高,那么该算法就越好。缺点:对离散点的聚类测评很高、对环状分布测评效果差。
importpandasaspdfromsklearnimportdatasetsfromjqmcviimportbase#loadingthedatasetX=()df=()#K-
外部评价指标
在外部评估方法中,聚类结果是通过使用没被用来做训练集的数据进行评估。例如已知样本点的类别信息和一些外部的基准。这些基准包含了一些预先分类好的数据,比如由人基于某些场景先生成一些带label的数据,因此这些基准可以看成是金标准。这些评估方法是为了测量聚类结果与提供的基准数据之间的相似性。然而这种方法也被质疑不适用真实数据。