文档介绍：K近邻算法的几种改进算法
K近邻算法(K Nearest Neighbors , KNN)是一种常用的基于距离度量的分类方法。K近邻算法假设整个训练集不仅包含数据集，而且包含每个元组期望的类别标签。实际上，训练数据就成为模型。当对一K近邻算法的几种改进算法
K近邻算法(K Nearest Neighbors , KNN)是一种常用的基于距离度量的分类方法。K近邻算法假设整个训练集不仅包含数据集，而且包含每个元组期望的类别标签。实际上，训练数据就成为模型。当对一个新元组进行分类时，必须首先确定它与训练集中的每个元组之间的距离。然后进一步考虑训练集中与新元组相距最近的元组。新元组将被分配到一个类中，这个类包含了 K个最近元组中的最多的元组。 K近邻算法优点是事先并不要求知道待分样本的分布函数，因此具有直观、无需先验统计知识、无师学****等特点，从而成为非参数分类的一种重要方法。
但是K近邻算法也具有自身的缺点，由于k一最近邻分类器认为每个属性的作用都是相同的(赋予相同权值)，这样在属性集包含有许多不相关属性时，就会误导分类过程，也就是说，K近邻算法易受噪声影响，尤其是样本点中孤立点的影响，同时K值的选取也会影响到分，对不同的应用选取的K值也不同。
针对K近邻算法存在的缺点，并结合实际需要，本文列举如下几种基于K近邻算法的改进方法。
(1 )K近邻改进算法
采用组合分类器的方法。组合分类器的方法有很多，其中包括投票法，非投票法，动态法和静态法等等。这里我们采用投票法。投票法起源于贝叶斯学****理论。贝叶斯学****理论规定为了取得最大的预测精度，在假设空间使用所有可容许的方法而不是只使用一种学****方法，对每种方法利用投票法给出权重。在机器学****领域提出了一些基于
Voting方法的算法，如uniform voting法，就是所有的基分类器对最后的分类有同样的权值。另外一个这样的方法是weighted voting法，每一个基分类器有一个相关的权重。该权重可以随时间变化。利用简单投票（uniform voting法），通过随机属性子集组合多个K近邻分类器进行分类过程中，虽然单个分类模型有独立的错误，但整体错误会会随着分类器数目的增加单调减少。K近邻改进算法的思想：随机选择属性子集，构建多个K近邻分类器，然后对未分类元组进行分类，最后将分类器的分类结果按照简单投票法进行组合，得票最多的分类器的结果则成为最终组合近邻分类器的输出。
（2）核K近邻分类法
核K近邻分类算法思想：首先利用一个非线性映射4、： K .■-:,将
原空间〃中的样本•「映射到一个高维的核空间/.中，目的是突出不同类别样本之间的特征差异，使得样本在核空间中变得线性可分（或近似线性可分），然后在这个高维的核空间中进行一般的K近邻分类。在核空间中，待分类的样本变为：■ 1 .■- : *
… ' '），.任意两个样本' 工, ）之间的距离按
' 7 II ' ' J J计算。其中2 /就是核
函数。
（3）应用于模式识别中的一种改进的K近邻法
改进的K近邻算法解决了如何在未知样本种准确地找到近邻点的问题，具体如下：定义C代表全体聚类的集合，N代表确定的近邻点