文档介绍：二分类数据的分类结果可视化算法
二分类数据的分类结果可视化算法第4l卷第3期
2006年6月
西南交通大学
JOURNALOFSOUTHWESTJIAOTONGUNIVERSITY

33O西南交通大学第41卷
算法[41,CCA(curvilinearcomponentanalysis)方法LsI,(relationalperspectivemap) ,即学****时不考虑分类信息,因此不同类别的数据在低维可视化
空间中很容易重叠,,它们均在低维空间上表示高维输人数据,不能提
,根据笔者的了解,目前在国内外鲜有报道.
本文中提出了用于显示二分类数据分类结果的可视化算法:支持向量可视化(supportvector
visualization,SVV).该算法是以S0M可视化功能为基础,结合监督学****的支持向量机SVM(supportvector
machine)二分类算法,最终实现在二维的S0M输出特征映射图上显示二分类数据的分类边界及高维数
据距离分类边界的距离程度,,通过在两组
可分性质量不同的样本集上与传统S0M可视化算法以及Sammon算法的仿真结
果的比较可见,数据集的
可分性越差,越能体现该算法的优越性,从而验证了该算法有效性和可行性. 1SW算法的提出

,每
,
二维特征映射图保持了输人数据的拓扑结构,即在输入空间上邻近的两个特征向量,在输出空间上两者同
样邻近,,不同类别的数
据在低维可视化空间中很容易重叠,不能提供分类边界信息,
类边界,提供更多的分类结果有关的信息,必须先得到分类边界,,需要采
,一方面由于其具有分类泛化效果好等优势;另一方面,该算法
求得的确定最优分类面的决策函数仅由少数的支持向量决定,并且根据该函数可以得到样本在高维特征
空间与最优分类面之间的距离信息.
,再
综合两者的学****结果.
训
练
样
太
SOM算法二维映射图

图1SVV算法的基本思路
给定训练样本集(.,Y),…,(,Y),其中?R为输人数据向量,Y?{?1}为类别标号,/7,为样本
数目,d为输入样本空间的维数.

S0M算法是迭代的,『都有一个对应的d维权值向量
=
(,,…,).
在作为训练用的输人数据作用下,具有与输人数据最接近的权值向量的结点按照"胜者为王"的原则,
(记为c)就"宣称"表征该输人数据,并且根据输入数据修改各结点的权值
向量.
获胜结点为
c=argm!nll一'.,ll,_『?{1,2,…,m},(1)
权值向量
'.,,(.]}+1):』()+=]}()[?一()],V_『E,(2)two(k),其它,,
其中:?是获胜结点c的邻域;(.]})是第.]}次迭代获胜结点c的邻域函数;占(后)
平到射
超映映上
类反维图
分面二
合
综一
第3期王晓红等:二分类数据的分类结果可视化算法33l
程中,邻域?,和学****速率(k)都是随迭代次数的增加不断减小的. SOM算法学****的结果是二维特征映射图和权值矢量矩阵W=(),该二维映射图上的各网络结点为
SOM的输出神经元,,任一高维输人数据均可
按式(1)
维输人数据激活,,当将所有输入数据按式(1)映射到
SOM二维映射图上时,该二维映射图就反映了高维输入空间中的样本数据