1 / 11
文档名称:

基于多核的改进模糊聚类算法.docx

格式:docx   大小:96KB   页数:11页
下载后只包含 1 个 DOCX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

基于多核的改进模糊聚类算法.docx

上传人:科技星球 2022/2/17 文件大小:96 KB

下载得到文件列表

基于多核的改进模糊聚类算法.docx

相关文档

文档介绍

文档介绍:基于多核的改进模糊聚类算法
 
 
 
 
 
   
 
 
 
贺艳芳 陈晓纯
摘要:为了对含有噪声和离群点的多特征类样本数据进行有效的聚类,提出了一种基于多核的改进模糊聚类算法。该算法选x)φi(y) λi>0] (2)
式(2)绝对一致收敛的充要条件是[babaK(x,y)g(x)g(y)dxdy≥0]对于所有满足条件的[g(x)g(y)dx<∞,g(x)≠0]成立。相应核函数K的特征函数和特征值为[(φi(x),λi)]。任意函数只要具备Mercer特性,就能当作Mercer核,下面给出常用Mercer核函数:
多项式核[K(x,y)=(x?y+1)d],其中d是整数,为自定义参数;
高斯核函数[K(x,y)=exp(-β||x-y||2/2δ2)],其中[δ]为高斯函数的宽度;
神经网络 sigmoidal核函数[K(x,y)=tanh(-b(x?y)-c],其中b,c是自定义的常数。
在选用合适的核函数时,可以利用先验知识选取符合数据分布的核函数;也可采用交叉验证的方法来选择合适的核函数,误差小的为最好的核函数。

SVM能用于分类和回归分析,它将向量映射到更高维空间进行分类,常用的SVM分类函数为:
[f(x)=sign(i=1Nαiyik(xi,x)+b)] (3)
式中:[xi]是N个有标志的训练样本;[yi∈{+1,-1}],[k(xi,x)]是核函数,它描述了样本[xi]和x的相似性,其中的权重[α]可以通过二次优化问题来求解。
而多核函数通过某种形式将多个子核函数组合在一起如下所示:
[K(xi,xj)=i=1KβkKk(xi,xj) βk≥0,k=1,2,…,K] (4)
其中[Kk]是满足Mercer条件的核函数。由Mercer条件可知,如果子核函数[Kk(xi,xj)]满足条件为核函数,那么多核[K(xi,xj)]在一定条件下仍满足核函数的条件。
每个子核[Kk]可以根据对样本的贡献度来选择合适的子核[Kk]和权重系数[βk],这种组合的多核函数[K(x,y)]具有更强划分性能。且多核函数能有效地拉大各个样本在特征空间的距离,从而加大各个样本的差异性,进而克服其他算法忽略微弱差别的样本,最终能更好地进行聚类。
和单核函数一样,多核聚类算法经过非线性映射,将输入空间Rm中的N个样本[x1,x2,…,xN]映射到高维特征空间得到[Φ(x1),Φ(x2),…,Φ
(xN)],最后在该特征空间中对特征矢量[Φ(xi),(i=1,…,N)]进行聚类,得到聚类结果。多核函数在高维特征空间欧式距离表示为:
[d(xi,xj)=||Φ(xi)-Φ(xj)||2=Φ(xi)?Φ(xi)-2Φ(xj)?Φ(xj)+Φ(xj)?Φ(xj)=K(xi,xi)-2K(xi,xj)+K(xj,xj)] (5)
2 基于多核的改进模糊聚类算法

设[U=(uij)C×N]为聚类算法中的模糊矩阵(其中,N为样本个数,C为类别数,[uij]是第i个类中第j个样本的模糊度),模糊聚类中心为[vi(i=1,2,…,C)],又设[X={x1,x2,…,xn}]为输入样本数据集合,其中每个数据[xi]均有m个特性指标,即[xi=(xi1,xi2,…,xim)]。则该算法的目标函数为:
[J[-]m=i=1Cj=1Numij||Φ(xj)-Φ(vi)||2] (6)
式中:[Φ(xj)]和[Φ(vi)]分别为原始样本数据和聚类中心在高维特征空间H中映射的像。
[||Φ(xi)-Φ(vi)||2=K(xi,xi)+K(vi,vi)-2K(xj,vi)]
(7)
一种新的非欧式聚类
上述模糊核聚类算法目标函数通过欧式距离来度量,算法的非线性处理能力不够,不能很好地处理强噪声点和离群点的情况。为了解决噪声点和离群点,使用非欧式距离[9-10],该距离函数如下:
[d2(x,y)=1-exp(-β||x-y||2)] (8)
式中:x,y为向量;参数[β]为常数,且
[β=((j=1N||xj-x||)/N)-1] (9)
[x=j=1Nxj/N]
函数[d2(x,y)]是关于范数[||x-y||]的单调递减函数。该非欧式距离函数在[0,1]范围内取值,这样在一定程度上减少了计算量且易于进行分类。容易看出,当存在离群点(即[||x-y||]很大)时,[d2(x,y)]的函数值很大,使用该距离的目标函数值也很大。而模糊聚类方法是通过极小化目标函数来求解的,故离群点对该新距离构造的模糊聚类算法基本无影响,特别是对分布散乱的样本数据具有较好的聚类效果。
因此将非欧式