文档介绍：-最近邻算法(K-NN)存在一个样本数据集合,也称作训练样本集,并且样本集中的每个数据都存在标签,即我们知道样本集中每一数据与所述分类的对应关系。输入没有标签的新数据后,将新数据的每个特征与样本集中数据对应的特征进行比较,然后算法提取样本集中特征最相似数据(最近邻)的分类标签。一般来说,选择样本数据集中的前k个相似的数据。最后选择k个最相似数据中出现次数最多的分类,作为新数据的分类。伪代码:对未知类别属性的数据集中的每个点依次执行以下操作:计算已知类别数据集中的点与当前点之间的距离;按照距离递增依次排序;选取与当前点距离最小的k个点;确定前k个点所在类别的出现频率;返回前k个点出现频率最高的类别作为当前点的预测分类。如图,平面有3个样本集将空间分为三类,输入新的数据点,使用欧拉距离来计算当前点与已知类别数据集中的点之间的距离,并选择K=5作为参数。在距离最近的5个特征点中,有4个点属于类别w1,1个点属于类别w2,因此分类器将输入点划分至w1类。。决策树由结点和有向边组成。结点有两种类型:内部节点和叶节点,内部节点表示一个特征或属性,叶节点表示一个类。分类的时候,从根节点开始,对实例的某一个特征进行测试,根据测试结果,将实例分配到其子结点;此时,每一个子结点对应着该特征的一个取值。如此递归向下移动,直至达到叶结点,最后将实例分配到叶结点的类中。如下图所示流程图就是一个决策树模型。在构造决策树时,需要确定当前数据集上哪个特征在划分数据分类时起到决定性的作用。为了找到决定性的特征,划分出最后的结果,必须评估每个特征。完成测试之后,原始数据集就被划分为几个数据子集。这些数据子集会分布在第一个决策点的所有分支上。如果某个分支下的数据属于同一类型,则当前的数据子集已经正确地划分数据分类,无需进一步对数据集进行分割。如果数据子集内的数据不属于同一类型,则需要重复划分数据子集的过程。如何划分数据子集的算法和划分原始数据集的方法相同,直到所有具有相同类型的数据均在一个数据子集内。创建分支函数的伪代码:检测数据集中的每个子项是否属于同一分类:Ifsoreturn类标签;:P(A|B)表示事件B已经发生的前提下,事件A发生的概率,叫做事件B发生下事件A的条件概率。其基本求解公式为:PAB=P(AB)P(B)贝叶斯定理:朴素贝叶斯分类原理:对于给定的待分类项,求解在此项出现的条件下,该项来自各个类别的概率,将此项划分为求解概率最大的那个类别。例如,假设我们有一个数据集,它由两类数据组成,c1与c2。给定某个由(x,y)表示的数据点,根据贝叶斯准则计算p(c1|x,y)与p(c2|x,y)。若p(c1|x,y)>p(c2|x,y),那么该数据点属于类别c1。若p(c1|x,y)<p(c2|x,y),那么该数据点属于类别c2。:根据现有数据对分类边界线建立回归公式,依次进行分类。Sigmoid函数计算公式如下:σz=11+e-z曲线图如下图所示:当x为0时,