文档介绍：十大数据挖掘算法及各自优势

算法是机器学****算法中的一种分类决策树算法,其核心算法
ID3算法的优点并在以下几方面对ID3
算法进行了改进：
用信息增益率来选择属性，克服了用信息十大数据挖掘算法及各自优势

算法是机器学****算法中的一种分类决策树算法,其核心算法
ID3算法的优点并在以下几方面对ID3
算法进行了改进：
用信息增益率来选择属性，克服了用信息增益选择属性时偏向选择取值多的属性的不足；
在树构造过程中进行剪枝；
能够完成对连续属性的离散化处理；
能够对不完整数据进行处理。
：产生的分类规则易于理解，准确率较高。
其缺点是：在构造树的过程中，需要对数据集进行多次的顺序扫描和
排序，
而导致算法的低效。
The k-means algorithm 即 K-Means 算法
k-means algorithm算法是一个聚类算法，把n的对象根据他们的属性分为k个分割，k < no它与处理混合正态分布的最大期望算法很相似，因为他们都试图找到数据中自然聚类的中心。它假设对象属性来自于空间向量，并且目标是使各个群组内部的均方误差总和最小。
Support vector machines
支持向量机，英文为Support Vector Machine ,简称SV机(论文中一般简称SVM )它是一种監督式學習的方法，它广泛的应用于统计分类以及回归分析中。支持向量机将向量映射到一个更高维的空间里，在这个空间里建立有一个最大间隔超平面。在分开数据的超平面的两边建有两个互相平行的超平面。分隔超平面使两个平行超平面的距离最大化。假定平行超平面间的距离或差距越大，分类器的总误差越小。一个极好的指南是
Burges的《模式识别支持向量机指南》。 van der Walt 和 Barnard 将支持向量机和其他分类器进行了比较。
The Apriori algorithm
Apriori 算法是一种最有影响的挖掘布尔关联规则频繁项集的算法。其核心是基于两阶段频集思想的递推算法。该关联规则在分类上属于单维、单层、布尔关联规则。在这里，所有支持度大于最小支持度的项集称为频繁项集，简称频集。
最大期望(EM)算法
在统计计算中，最大期望(EM , Expectation-Maximization )算法是在概率(probabilistic )模型中寻找参数最大似然估计的算法，其中概率模型依赖于无法观测的隐藏变量(Latent Variabl )最大期望经常用在机器学****和计算机视觉的数据集聚(Data Clustering )领域。
PageRank
PageRank是Google算法的重要内容。2001年9月被授予美国专利，专利人是Google创始人之一拉里•佩奇(Larry Page )因此，PageRank里的page不是指网页，而是指佩奇，即这个等级方法是以佩奇来命名的。PageRank根据网站的外部链接和内部链接的数量和质量俩衡量网站的价值。PageRank背后的概念是，每个到页面的链接都是对该页面的一次投票，被链接的越多，就