文档介绍:
2. k-means algorithm算法是一个聚类算法,其关键算法是ID3算法.
3. Support vector machines,支持向量机,简称SV机(论文中通常简称SVM)。它是一个監督式學習方法,它广泛应用于统计分类和回归分析中
4. Apriori算法是一个最有影响挖掘布尔关联规则频繁项集算法
5. 最大期望(EM,Expectation–Maximization)算法是在概率(probabilistic)模型中寻求参数最大似然估量算法
6. PageRank是谷歌算法关键内容。PageRank依据网站外部链接和内部链接数量和质量俩衡量网站价值
7. Adaboost是一个迭代算法,其关键思想是针对同一个训练集训练不一样分类器(弱分类器),然后把这些弱分类器集合起来,组成一个更强最终分类器 (强分类器)。其算法本身是经过改变数据分布来实现
8. kNN: k-nearest neighbor classification
K最近邻(k-Nearest Neighbor,KNN)分类算法,是一个理论上比较成熟方法,也是最简单机器学****算法之一。该方法思绪是:假如一个样本在特征空间中k个最相同(即特征空间中最邻近)样本中大多数属于某一个类别,则该样本也属于这个类别
9. Naive Bayes
在众多分类模型中,应用最为广泛两种分类模型是决议树模型(Decision Tree Model)和朴素贝叶斯模型(Naive Bayesian Model,NBC)
10. CART: 分类和回归树
CART, Classification and Regression Trees。 在分类树下面有两个关键思想。第一个是相关递归地划分自变量空间想法;第二个想法是用验证数据进行剪枝
机器学****中,决议树是一个估计模型;她代表是对象属性和对象值之间一个映射关系。树中每个节点表示某个对象,而每个分叉路径则代表某个可能属性值,而每个叶结点则对应从根节点到该叶节点所经历路径所表示对象值。决议树仅有单一输出,若欲有复数输出,能够建立独立决议树以处理不一样输出。
从数据产生决议树机器学****技术叫做决议树学****通俗说就是决议树。
决议树学****也是数据挖掘中一个一般方法。在这里,每个决议树全部表述了一个树型结构,她由她分支来对该类型对象依靠属性进行分类。每个决议树能够依靠对源数据库分割进行数据测试。这个过程能够递归式对树进行修剪。 当不能再进行分割或一个单独类能够被应用于某一分支时,递归过程就完成了。另外,随机森林分类器将很多决议树结合起来以提升分类正确率。
决议树同时也能够依靠计算条件概率来结构。决议树假如依靠数学计算方法能够取得愈加理想效果。
决议树是怎样工作
决议树通常全部是自上而下来生成。
选择分割方法有好多个,不过目标全部是一致:对目标类尝试进行最好分割。
从根到叶子节点全部有一条路径,这条路径就是一条“规则”。
决议树能够是二叉,也能够是多叉。
对每个节点衡量:
1)        经过该节点统计数
2)        假如是叶子节点话,分类路径
3)        对叶子节点正确分类百分比。
有些规则效果能够比其它部分规则要好。
因为ID3算法在实际应用中存在部分问题,,。,这里就不做介绍。
    ,并在以下几方面对ID3算法进行了改善:
    1) 用信息增益率来选择属性,克服了用信息增益选择属性时偏向选择取值多属性不足;
    2) 在树结构过程中进行剪枝;
    3)
能够完成对连续属性离散化处理;
    4) 能够对不完整数据进行处理。
    :产生分类规则易于了解,正确率较高。其缺点是:在结构树过程中,需要对数据集进行数次次序扫描和排序,所以造成算法低效。另外,,当训练集大得无法在内存容纳时程序无法运行。
,其关键算法是ID3算法.
  分类决议树算法是从大量事例中进行提取分类规则自上而下决议树.
      决议树各部分是:
            根:   学****事例集.
            枝:   分类判定条件.
            叶:   分好各个类.
§     ID3算法
 
1)     初始化参数C=