文档介绍：K近邻算法的几种改进算法
K近邻算法（KNearestNeighbors,KNN）是一种常用的基于距离度量的分类方法。K近邻算法假设整个训练集不仅包含数据集，而且包含每个元组期望的类别标签。实际上，训练数据就成为模型。当对一个新元组进行分K近邻算法的几种改进算法
K近邻算法（KNearestNeighbors,KNN）是一种常用的基于距离度量的分类方法。K近邻算法假设整个训练集不仅包含数据集，而且包含每个元组期望的类别标签。实际上，训练数据就成为模型。当对一个新元组进行分类时，必须首先确定它与训练集中的每个元组之间的距离。然后进一步考虑训练集中与新元组相距最近的元组。新元组将被分配到一个类中，这个类包含了K个最近元组中的最多的元组。
K近邻算法优点是事先并不要求知道待分样本的分布函数，因此具有直观、无需先验统计知识、无师学习等特点，从而成为非参数分类的一种重要方法。
但是K近邻算法也具有自身的缺点，由于k—最近邻分类器认为每个属性的作用都是相同的（赋予相同权值），这样在属性集包含有许多不相关属性时，就会误导分类过程，也就是说，K近邻算法易受噪声影响，尤其是样本点中孤立点的影响，同时K值的选取也会影响到分类结果．因为K值的选取是根据每类样本的数目和分散程度选取的，对不同的应用选取的K值也不同。
针对K近邻算法存在的缺点，并结合实际需要，本文列举如下几种基于K近邻算法的改进方法。
（1）K近邻改进算法采用组合分类器的方法。组合分类器的方法有很多，其中包括投票法，非投票法，动态法和静态法等等。这里我们采用投票法。投票法起源于贝叶斯学习理论。贝叶斯学习理论规定为了取得最大的预测
精度，在假设空间使用所有可容许的方法而不是只使用一种学习方法，
对每种方法利用投票法给出权重。在机器学习领域提出了一些基于
Voting方法的算法，如uniformvoting法，就是所有的基分类器对最后的分类有同样的权值。另外一个这样的方法是weightedvoting法，每一个基分类器有一个相关的权重。该权重可以随时间变化。利用简单投票（uniformvoting法），通过随机属性子集组合多个K近邻分类器进行分类过程中，虽然单个分类模型有独立的错误，但整体错误会会随着分类器数目的增加单调减少。K近邻改进算法的思想：随机选择属性子集，构建多个K近邻分类器，然后对未分类元组进行分类，最后将分类器的分类结果按照简单投票法进行组合，得票最多的分类器的结果则成为最终组合近邻分类器的输出。
（2）核K近邻分类法
核K近邻分类算法思想：首先利用一个非线性映射丄将
x'）之间的距离按计算。其中总水＞
原空间"中的样本'映射到一个高维的核空间/中，目的是突出不同类别样本之间的特征差异，使得样本在核空间中变得线性可分（或近似线性可分），然后在这个高维的核空间中进行一般的K近邻分类。在核空间中，待分类的样本变为：，・
2EZ、、
），任意两个样本
就是核
①XL）一CX.）函数。
（3）应用于模式识别中的一种改进的K近邻法
改进的K近邻算法解决了如何在未知样本种准确地找到近邻点
的问题，具体如下：定义C代表全体聚类的集合，N代表确定的近邻点的集合，I为最近间隔，P为竞争点集，即可能成为近邻点的集合。聚类后计算指定点x到每