1 / 8
文档名称:

关于大数据挖掘中的数据分类算法技术的研究.doc

格式:doc   大小:17KB   页数:8页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

关于大数据挖掘中的数据分类算法技术的研究.doc

上传人:tiros009 2022/6/23 文件大小:17 KB

下载得到文件列表

关于大数据挖掘中的数据分类算法技术的研究.doc

文档介绍

文档介绍:关于大数据挖掘中的数据分类算法技术的研究
摘要:数据分类算法作为大数据分析与数据挖掘中的关键内容,面对大数据信息时代的到来,各种各样的分类技术和算法高速发展,但在发展的过程中仍然存在部分难以有效解决的问题。该文通过对数据挖掘分策过程,这个过程我们可以用决策树来展示,具体如图2所示。
现阶段,比较常见的决策树算法包含种类较多,如ID3算法、C4/C5算法等等。和其他类型的分类算法进行对比,决策树算法具有以下几项优点:其一,决策树分类算法便于理解和实现。对于数据挖掘技术的应用人员来讲,决策树分类算法的这种容易理解属性,可以帮助其更加快速地将决策树算法应用到实际分类中;其二,决策树分类算法运行速度更快。由于决策树分类算法工作量相对于其他分类算法更小,所以其总计算时间便会更短;其三,决策树分类算法精准性更高。应用决策树分类算到数据挖掘中,能够更加快速和准确的找出分类规则,并以清晰、直观的形象体现出重点字节。
同时,决策树分类算法在具备多种优点的情况下,也不得避免存在一系列的缺点:第一,必须对连续性数据信息进行离散化处理,才能实现分类与学****第二,对于已经具备时间顺序的数据,需要提前进行大规模的处理加工,这是提升分类过程工作量的关键因素。此外,如果类别过多,将极有可能导致决策树分类算法出现错误分类。
鉴于决策树的优劣情况,国内外部分专家学者提出决策树分类算法的改进策略。例如,将监督学****任务算法应用到决策树分类算法之中,在决策树形成、建设时期,该算法能够随着记录的数量、属性不断提高,通过预排序的方式和广度优先的方式,实现决策树算法的有效改良。
神经网络,指的是人工神经网络,通过对生物大脑结构、工作状态的模拟,形成一个动态化、灵活化的信息处理模型。具体原理如下:一个神经网络便是一个单位,该单位由多层神经元共同组成,每一个多层神经元又包含三个层次,即输入、输出和隐含三层。为直观地体现出神经网络算法的工作原理,制作神经网络模型示意图如图2所示。
人工神经网络分类算法的优势较多,主要如下:其一,人工神经网络分类算的精度相对较高;其二,人工神经网络具有较强的鲁棒性特点;其三,人工神经网络分类算法具有自我学****能力和一定的记忆能力;其四,人工神经网络分类算法能够有效解答部分极为复杂的问题和现象,由于人工神经网络具备非线性拟合功能,甚至在不具备条件的情况下利用变量反复实施线性组合后,再将这些线性组合转化为非线性,所以该分类算法能够映射出较为复杂的非线性内容。
关于人工神经网络分类算法的缺陷,最为突出和难以解决的就是神经网络本身的建立问题。建设一个完整、先进的神经网络往往需要花费大量的时间,并且难度也较大。鉴于此,部分国内外专家学者提出在提取规则你对神经网络实施剪枝的方法,对部分对分类准确程度影响非常小或者不能对分类造成影响的神经元去除,继而简化神经网络的构建。

以统计学为基础的数据挖掘分类算法,其核心在于这种算法是以概率的形式展现各种数据信息的不确定性,推导、学****均是以概率学理论予以运行。朴素贝叶斯分类是现代统计学分类算法当中较为经典的,这种算法操作与原理也相对简单易懂。
朴素贝叶斯分类算法的优点较多,主