1 / 20
文档名称:

数据挖掘.ppt

格式:ppt   大小:510KB   页数:20页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

数据挖掘.ppt

上传人:wz_198613 2019/7/10 文件大小:510 KB

下载得到文件列表

数据挖掘.ppt

相关文档

文档介绍

文档介绍:,使得各个领域或组织机构积累了大量的数据。如何从这些数据中提取有价值的信息和知识以帮助做出明智的决策,成为巨大的挑战。计算机技术的迅速发展使得处理并分析这些数据成为可能,这种新的技术就是数据挖掘(DataMinging),又称为数据库知识发现(KnowledgeDiscoveryinDatabase,KDD)。数据挖掘概念首次出现在1989年举行的第十一届国际联合人工智能学术会议上,其思想主要来自于机器学****模式识别、统计和数据库系统。国内对数据挖掘的研究起步较晚,1993年国家自然科学基金首次支持该领域的研究。此后,国家、各省自然科学基金委,国家社科基金,“863”、“973”项目,国家、各省的科技计划,每年都有相关项目支持。众多研究机构和大学都成立专门的项目组。从事数据挖掘研究与应用的人员越来越多。现今,数据挖掘的基本理论问题逐步得到了解决,现在更多的是数据挖掘的应用。。预测型任务就是根据其他属性的值预测特定属性的值,如回归、分类、离群点检测等。描述型任务就是寻找概括数据中潜在联系的模式,如聚类分析、关联分析、演化分析、序列模式挖掘。(1)分类分析分类分析就是通过分析示例数据库中的数据,为每个类别做出准确的描述,或建立分析模型,或挖掘出分类规则,然后用这个分类模型或规则对数据库中的其他记录进行分类。分类分析已广泛用于用户行为分析、风险分析、生物分析、生物科学领域等。(2)聚类分析物以类聚,人以群分,聚类分析技术试图找出数据集中的数据的共性和差异,并将具有共性对象聚合在相应的簇中。聚类分析已广泛应用与客户细分、定向营销、信息检索等领域。聚类与分类是容易混淆的两个概念。聚类是一种无指导的观察式学****没有预先定义的类。(3)关联分析关联分析是发现特征之间的相互依赖关系,通常是在给定的数据集中发现频繁出现的模式知识(又称关联规则)。关联规则广泛用于市场营销、事务分析等领域。,有大量数据的地方就有数据挖掘用武之地。目前,应用较好的领域或行业有生物信息学、电信业、零售业以及保险、银行、证券等金融领域。在数据挖掘阶段,概括而言,数据挖掘分析员,可以使用的数据挖掘方法主要有如下几个:(1)预估模型,包括分类和预估两种类型。(2)聚类技术(3)连接技术(4)。分类问题是一个普遍存在的问题,有许多不同的应用。例如,根据电子邮件的标题和内容检查出垃圾邮件,对一大堆照片区分出哪些是猫哪些是狗。分类任务就是通过学****得到一个目标函数,把每个属性集x映射到一个预先定义的类标号y。目标函数也称分类模型。,我们已经知道决策树分类法是一种简单但广泛的分类技术。原则上讲,对于给定的数据集,可以构造的决策树的数目达指数级。尽管某些决策树比其他决策树更为准确,但是由于搜索空间是指数规模的,找出最佳决策树在计算上是不可行的。现在的许多算法都采取贪心算法,采取一系列局部最优决策来构造决策树,比如Hunt算法。“if...then...”规则来对记录进行分类的技术。为了建立基于规则的分类器,需要提取一组规则来识别数据集的属性和类标号之间的关键联系。提取分类规则的方法有两大类,直接方法和间接方法。直接方法是直接从数据中提取分类规则,间接方法是从其他分类模型中提取分类规则。