1 / 7
文档名称:

数据挖掘主要算法及流程说明.doc

格式:doc   大小:164KB   页数:7页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

数据挖掘主要算法及流程说明.doc

上传人:sdnmy78 2022/7/20 文件大小:164 KB

下载得到文件列表

数据挖掘主要算法及流程说明.doc

相关文档

文档介绍

文档介绍:-
. z.
数据挖掘主要算法及流程说明
贝叶斯概率算法
贝叶斯概率算法主要应用于离散分类应用中,其要求属性集保持相对独立性或者具有弱关联关系。
贝叶斯概率算法主要分,然后从各原因变量向其对应的结果变量画弧,否则计算量会到达d!之多。
在特殊情况下,假设训练样例不能保证覆盖所有属性值时,可以针对为覆盖属性指定用户概率值p,尤其适用于训练样集相比照拟小的情况。
计算后验概率时,依据贝叶斯网络拓扑构造的因果关系图,进展直接乘法操作或者判定无关而直接取先验概率。
针对属性集中的相关属性,需要进展打捆处理,否则可能会降低贝叶斯算法的分类效果。
-
. z.
神经网络算法
神经网络算法是一种由多个输入经计算到单个输出的处理算法,对信息的处理是非线性的。
神经网络算法的输入层与输出层之间可以包含多个中间层,对于不同模型的神经网络算法各神经元节点之间存在不同的连接方式。
神经网络算法可以处理一定的冗余特征,主要表达在权值在训练过程的学****方式。
训练神经网络算法各神经元对应权值是一个非常耗时的过程,尤其是当隐藏节点数量比拟大时。但是,其在计算分类过程中速度比拟快。
在训练神经网络来学****分类任务之前,需要确定输出层的节点数目,假设为2-分类问题,一个输出节点即可;而对于k-类问题,则需要k个输出节点。神经网络算法权值训练学****过程如下所示:
开场
确定输入层与输出层节点数
神经网络计算
输出结果检验
得到优化后的权值
Y
反响计算,优化权值
权值更新
N
完毕
图1 神经网络算法权值训练学****流程示意图
-
. z.
以最为常用且比拟成熟易操作的单隐藏层神经网络构造为例,其算法伪代码实现如下:
令是训练样例集
随机初始化权值向量
Do
For 每一个训练样例 do
计算预测输出结果
For 每个权值 do
更新权值
End for
End for
While〔不满足终止条件〕
注:
在计算过程中保持0~1之间,被称作是学****率。其值接近0时,新权值主要受旧权值的影响;当值接近1时,则新权值对当前循环中的调整量更加敏感。
为保证新权值变化的合理性与提升运算效率,开场一般初始化值较大,运算过程中依据计算结果进展梯度调整:。即依据误差平方和的平局值进展调整。
关联分析
关联分析主要用于发现隐藏在大型数据集中的有意义联系,并对所发现的联系用频繁项集或关联规则的形式进展表示。
关联规则是一种形如的蕴涵表达式,其中*和Y是不相交的项集,即。
关联规则的强度由支持度和置信度计量,其中支持度,置信度
-
. z.
。表示包含项集*的事务数目。
在进展关联分析计算时,最重要且最费时的环节为频繁项集的产生阶段,一般利用Apriori算法进展生成。算法伪代码描述如下:
K=1
,即产生所有的频繁1-项集
Do
K = k + 1
,即产生相对应的候选项集
For 事务