1 / 4
文档名称:

十大数据挖掘算法及各自优势.docx

格式:docx   大小:12KB   页数:4页
下载后只包含 1 个 DOCX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

十大数据挖掘算法及各自优势.docx

上传人:niupai11 2022/7/17 文件大小:12 KB

下载得到文件列表

十大数据挖掘算法及各自优势.docx

文档介绍

文档介绍:十大数据挖掘算法及各自优势

算法是机器学****算法中的一种分类决策树算法,其核心算法
ID3算法的优点并在以下几方面对ID3
算法进行了改进:
用信息增益率来选择属性,克服了用信息十大数据挖掘算法及各自优势

算法是机器学****算法中的一种分类决策树算法,其核心算法
ID3算法的优点并在以下几方面对ID3
算法进行了改进:
用信息增益率来选择属性,克服了用信息增益选择属性时偏 向选择取值多的属性的不足;
在树构造过程中进行剪枝;
能够完成对连续属性的离散化处理;
能够对不完整数据进行处理。
:产生的分类规则易于理解,准确率较高。
其缺点是:在构造树的过程中,需要对数据集进行多次的顺序扫描和
排序,
而导致算法的低效。
The k-means algorithm 即 K-Means 算法
k-means algorithm算法是一个聚类算法,把n的对象根据他们 的属性分为k个分割,k < no它与处理混合正态分布的最大期望算 法很相似,因为他们都试图找到数据中自然聚类的中心。它假设对象 属性来自于空间向量,并且目标是使各个群组内部的均方误差总和最 小。
Support vector machines
支持向量机,英文为Support Vector Machine ,简称SV机(论 文中一般简称SVM )它是一种監督式學習的方法,它广泛的应用于 统计分类以及回归分析中。支持向量机将向量映射到一个更高维的空 间里,在这个空间里建立有一个最大间隔超平面。在分开数据的超平 面的两边建有两个互相平行的超平面。分隔超平面使两个平行超平面 的距离最大化。假定平行超平面间的距离或差距越大,分类器的总误 差越小。一个极好的指南是
Burges的《模式识别支持向量机 指南》。 van der Walt 和 Barnard 将支持向量机和其他分类器进行 了比较。
The Apriori algorithm
Apriori 算法是一种最有影响的挖掘布尔关联规则频繁项集的算 法。其核心是基于两阶段频集思想的递推算法。该关联规则在分类上 属于单维、单层、布尔关联规则。在这里,所有支持度大于最小支持 度的项集称为频繁项集,简称频集。
最大期望(EM)算法
在统计计算中,最大期望(EM , Expectation-Maximization )算 法是在概率(probabilistic )模型中寻找参数最大似然估计的算法, 其中概率模型依赖于无法观测的隐藏变量(Latent Variabl )最大期 望经常用在机器学****和计算机视觉的数据集聚(Data Clustering )领 域。
PageRank
PageRank是Google算法的重要内容。2001年9月被授予美 国专利,专利人是Google创始人之一拉里•佩奇(Larry Page )因 此,PageRank里的page不是指网页,而是指佩奇,即这个等级方 法是以佩奇来命名的。PageRank根据网站的外部链接和内部链接的 数量和质量俩衡量网站的价值。PageRank背后的概念是,每个到页 面的链接都是对该页面的一次投票,被链接的越多,就