文档介绍:家用吸氧机价格面试中,除了基础& 算法& 项目之外,经常被问到或被要求介绍和描述下自己所知道的几种分类或聚类算法, 而我向来恨对一个东西只知其皮毛而不得深入, 故写一个有关聚类& 分类算法的系列文章以作为自己备试之用( 尽管貌似已无多大必要, 但还是觉得应该写下以备将来常常回顾思考) 。行文杂乱,但侥幸若能对读者也起到一定帮助,则幸甚至哉。本分类& 聚类算法系列借鉴和参考了两本书,一本是 Tom 所著的机器学****一本是数据挖掘导论,这两本书皆分别是机器学****amp; 数据挖掘领域的开山 or 杠鼎之作, 读者有继续深入下去的兴趣的话, 不妨在阅读本文之后, 课后细细研读这两本书。除此之外, 还参考了网上不少牛人的作品( 文末已注明参考文献或链接), 在此, 皆一一表示感谢。本分类& 聚类算法系列暂称之为 Top 10 Algorithms in Data Mining , 其中, 各篇分别有以下具体内容: 1. 开篇:决策树学****Decision Tree ,与贝叶斯分类算法( 含隐马可夫模型 HMM ); 2. 第二篇:支持向量机 SVM( support vector machine ) ,与神经网络 ANN ; 3. 第三篇:待定... 说白了, 一年多以前, 我在本 blog 内写过一篇文章, 叫做: 数据挖掘领域十大经典算法初探( 题外话:最初有个出版社的朋友便是因此文找到的我,尽管现在看来,我离出书日期仍是遥遥无期) 。现在,我抽取其中几个最值得一写的几个算法每一个都写一遍,以期对其有个大致通透的了解。 OK , 全系列任何一篇文章若有任何错误, 漏洞, 或不妥之处, 还请读者们一定要随时不吝赐教& 指正,谢谢各位。基础储备:分类与聚类在讲具体的分类和聚类算法之前, 有必要讲一下什么是分类, 什么是聚类, 都包含哪些具体算法或问题。常见的分类与聚类算法简单来说, 自然语言处理中, 我们经常提到的文本分类便就是一个分类问题, 一般的模式分类方法都可用于文本分类研究。常用的分类算法包括:朴素的贝叶斯分类算法( native Bayesian classifier ) 、基于支持向量机(SVM) 的分类器, k- 最近邻法( k-nearest neighbor , 家用吸氧机价格 ) ,神经网络法,决策树分类法,模糊分类法等等( 本篇稍后会讲决策树分类与贝叶斯分类算法,当然,所有这些分类算法日后在本 blog 内都会一一陆续阐述)。而K 均值聚类则是最典型的聚类算法。监督学****与无监督学****一般来说, 机器学****方法分为监督学****方法, 和无监督学****方法。举个具体的对应例子, 则是比如说, 在词义消岐中, 也分为监督的消岐方法, 和无监督的消岐方法。在有监督的消岐方法中, 训练数据是已知的, 即没歌词的语义分类是被标注了的; 而在无监督的消岐方法中,训练数据是未经标注的。有监督的学****也通常称为分类任务,而无监督的学****通常称为聚类任务。也就是说,分类属于监督学****聚类属于无监督学****第一部分、决策树学****什么是决策树咱们直接切入正题。所谓决策树, 顾名思义, 是一种树, 一种依托于策略抉择而建立起来的树。机器学****中, 决策树是一个预测模型; 他代表的是对象属性与对象值之间的一种映射关系。树中每个节点表示某个对象, 而每个分叉路径则代表的某个可能的属性值, 而每个叶结点则对应从根节点到该叶节点所经历的路径所表示的对象的值。决策树仅有单一输出, 若欲有复数输出,可以建立独立的决策树以处理不同输出。从数据产生决策树的机器学****技术叫做决策树学****通俗点说就是决策树。来理论的太过抽象,下面举两个浅显易懂的例子: 第一个例子套用俗语, 决策树分类的思想类似于找对象。现想象一个女孩的母亲要给这个女孩介绍男朋友,于是有了下面的对话: 女儿:多大年纪了? 母亲: 26 。家用吸氧机价格:长的帅不帅? 母亲:挺帅的。女儿:收入高不? 母亲:不算很高,中等情况。女儿:是公务员不? 母亲:是,在税务局上班呢。女儿:那好,我去见见。这个女孩的决策过程就是典型的分类树决策。相当于通过年龄、长相、收入和是否公务员对将男人分为两个类别:见和不见。假设这个女孩对男人的要求是: 30 岁以下、长相中等以上并且是高收入者或中等以上收入的公务员, 那么这个可以用下图表示女孩的决策逻辑: 也就是说, 决策树的简单策略就是, 好比公司招聘面试过程中筛选一个人的简历, 如果你的条件相当好比如说某 985/211 重点大学博士毕业,那么二话不说,直接叫过来面试, 如果非重点大学毕业, 但实际项目经验丰富, 那么也要考虑叫过来面试一下, 即所谓具体情况具体分析、决策。第二个例子此例子来自 Tom 著的机器学****一书: 家用吸氧机价