1 / 13
文档名称:

数据挖掘十大算法.docx

格式:docx   大小:76KB   页数:13页
下载后只包含 1 个 DOCX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

数据挖掘十大算法.docx

上传人:薄荷牛奶 2022/3/27 文件大小:76 KB

下载得到文件列表

数据挖掘十大算法.docx

相关文档

文档介绍

文档介绍:
2. k-means algorithm算法是一个聚类算法,其核心算法是ID3算法算法继承了ID3算法的优点
3. Support vector machines,支持向量机,简称SV机〔论LS
1)     初始化参数C={E},E包括所有的例子,为根.
2)       IF     C中的任一元素e同属于同一个决策类则创建一个叶子    
              节点YES终止.
          ELSE     依启发式标准,选择特征Fi={V1,V2,V3,...Vn}并创建
                      判定节点
划分C为互不相交的N个集合C1,C2,C3,...,Cn;
3)     对任一个Ci递归.
2.     ID3算法
1)     随机选择C的一个子集W   (窗口).
2)     调用CLS生成W的分类树DT(强调的启发式标准在后).
3)     顺序扫描C搜集DT的意外(即由DT无法确定的例子).
4)     组合W与已发现的意外,形成新的W.
5)     重复2)到4),直到无例外为止.
启发式标准:
      只跟本身与其子树有关,采取信息理论用熵来量度.
      熵是选择事件时选择自由度的量度,其计算方法为
              P   =   freq(Cj,S)/|S|;
      INFO(S)=   -   SUM(   P*LOG(P)   )   ;       SUM()
函数是求j从1到n和.
      Gain(X)=Info(X)-Infox(X);
      Infox(X)=SUM(   (|Ti|/|T|)*Info(X);
为保证生成的决策树最小,ID3算法在生成子树时,选取使生成的子树的熵(即Gain(S))最小的的特征来生成子树.
§:   ID3算法对数据的要求
1.     所有属性必须为离散量.
2.     所有的训练例的所有属性必须有一个明确的值.
3.     相同的因素必须得到相同的结论且训练例必须唯一.
对ID3算法的改良:
      1.     熵的改良,加上了子树的信息.
            Split_Infox(X)=   -   SUM(     (|T|/|Ti|   )   *LOG(|Ti|/|T|)     );
            Gain   ratio(X)=     Gain(X)/Split   Infox(X);
2.     在输入数据上的改良.
        1)
因素属性的值可以是连续量对其排序并分成不同的集合后按照ID3算法当作离散量进行处理,但结论属性的值必须是离散值.
      2)   训练例的因素属性值可以是不确定的,以   ?   表示,但结论必须是确定的
      3.     对已生成的决策树进行裁剪,减小生成树的规模.
二 The k-means algorithm
k-means algorithm算法是一个聚类算法,把n的对象根据他们的属性分为k个分割,k < n。它与处理混合正态分布的最大期望算法很相似,因为他们都试图找到数据中自然聚类的中心。它假设对象属性来自于空间向量,并且目标是使各个群组内部的均方误差总和最小。
  假设有k个群组Si, i=1,2,...,k。μi是群组Si内所有元素xj的重心,或叫中心点。
  k平均聚类发明于1956年, 该算法最常见的形式是采用被称为劳埃德算法(Lloyd algorithm)的迭代式改良探索法。劳埃德算法首先把输入点分成k个初始化分组,可以是随机的或者使用一些启发式数据。然后计算每组的中心点,根据中心点的位置把对象分到离它最近的中心,重新确定分组。继续重复不断地计算中心并重新分组,直到收敛,即对象不再改变分组〔中心点位置不再改变〕。
  劳埃德算法和k平均通常是紧密联系的,但是在实际应用中,劳埃德算法是解决k平均问题的启发式法则,对于某些起始点和重心的组合,劳埃德算法可能实际上收敛于错误的结果。〔上面函数中存在的不同的最优解〕
  虽然存在变异,但是劳埃德算法仍旧保持流行,因为它在实际中收敛非常快。实际上,观察发现迭代次数远远少于点的数量。然而最近,David Arthur和Sergei Vassilvitskii提出存在特定的点集使得k平均算法花费超多项式时间到达收敛。
  近似的k平均算法已经被设计用于原始数据子集的计算。
  从算法的表现上来说,它并不保证一