文档介绍：数据挖掘综述
原始数据可以是结构化，如关系数据库中的数据；也可以是半结构化的，如文本、图形和图像数据；甚至是分布在网络上的异构型数据。
发现知识的方法可以是数学的，也可以是非数学的；可以是演绎的，也可以是归纳的。
发现的知识可可以依据其他属性值进行预测。
。
关联规则的发现可分为两步：
第一步是迭代识别所有的频繁项目集，要求频繁项目集的支持率不低于用户设定的最低值；
第二步是从频繁项目集中构造可信度不低于用户设定的最低值的规则。
分类知识(Classification＆Clustering)
分类知识反映同类事物共同性质的特征型知识和不同事物之间的差异型特征知识。
最为典型的分类方法是基于决策树的分类方法。它是从实例集中构造决策树，是一种有指导的学****方法。
数据分类还有统计、粗糙集（Rough Set）等方法。线性回归和线性辨别分析是典型的统计模型。
为降低决策树生成代价，人们还提出了一种区间分类器。最近也有人研究使用神经网络方法在数据库中进行分类和规则提取。
预测型知识（Prediction）
预测知识根据时间序列型数据，由历史的和当前的数据去推测未来的数据，也可以认为是以时间为关键属性的关联知识。
时间序列预测方法有经典的统计方法、神经网络和机器学****等。
(Deviation)
偏差型知识是对差异和极端特例的描述，揭示事物偏离常规的异常现象，如标准类外的特例，数据聚类外的离群值等。
5 数据挖掘的功能
自动预测趋势和行为
关联分析
聚类
概念描述
偏差检测
自动预测趋势和行为
数据挖掘自动在大型数据库中寻找预测性信息，以往需要进行大量手工分析的问题如今可以迅速直接由数据本身得出结论。
一个典型的例子是市场预测问题，数据挖掘使用过去有关促销A的数据来寻找未来投资中回报最大的用户，其它可预测的问题包括预报破产以及认定对指定事件最可能作出反应的群体。
关联分析
关联分析的目的是找出数据库中隐藏的关联网。若两个或多个变量的取值之间存在某种规律性，就称为关联。
关联可分为简单关联、时序关联、因果关联。
有时并不知道数据库中数据的关联函数，即使知道也是不确定的，因此关联分析生成的规则带有可信度。
聚类
数据库中的记录可被化分为一系列有意义的子集，即聚类。聚类增强了人们对客观现实的认识，是概念描述和偏差分析的先决条件。
聚类技术主要包括传统的模式识别方法和数学分类学。

概念描述就是对某类对象的内涵进行描述，并概括这类对象的有关特征。
概念描述分为特征性描述和区别性描述，前者描述某类对象的共同特征，后者描述不同类对象之间的区别。生成一个类的特征性描述只涉及该类对象中所有对象的共性。生成区别性描述的方法很多，如决策树方法、遗传算法等。

数据库中的数据常有一些异常记录，从数据库中检测这些偏差很有意义。
偏差包括很多潜在的知识，如分类中的反常实例、不满足规则的特例、观测结果与模型预测值的偏差、量值随时间的变化等。偏差检测的基本方法是，寻找观测结果与参照值之间有意义的差别。
6 数据挖掘常用技术
人工神经网络
决策树
遗传算法
近邻算法
规则推导
人工神经网络
优点1: 为解决大复杂度问题提供了一种相对来说比较有效的简单方法。神经网络可以很容易的解决具有上百个参数的问题。
优点 2：很容易在并行计算机上实现，可以把他的节点分配到不同的CPU上并行计算。
在使用神经网络时的几点注意
神经网络很难解释，目前还没有能对神经网络做出显而易见解释的方法学。
神经网络会过度学****在训练神经网络时一定要恰当的使用一些能严格衡量神经网络的方法，如测试集方法和交叉验证法等。这主要是由于神经网络太灵活、可变参数太多，如果给足够的时间，他几乎可以“记住”任何事情。
在使用神经网络时的几点注意
除非问题非常简单，训练一个神经网络可能需要相当可观的时间才能完成。当然，一旦神经网络建立好了，在用它做预测时运行时还是很快得。
建立神经网络需要做的数据准备工作量很大。
决策树
决策树是应用最广的归纳推理算法之一。它提供了一种获取分类规则的方法。
决策树的基本组成部分：根节点、分支和叶节点。
决策树很擅长处理非数值型数据，