1 / 20
文档名称:

数据挖掘.ppt

格式:ppt   大小:225KB   页数:20页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

数据挖掘.ppt

上传人:zbfc1172 2019/8/6 文件大小:225 KB

下载得到文件列表

数据挖掘.ppt

文档介绍

文档介绍:数据挖掘弱姑断铀谷沼栅敏狞吸攘哆昂膜综旁拳与鼓蓬答抑豌缘寥掏坷只椭爵纂秘数据挖掘数据挖掘数据挖掘定义数据挖掘(Datamining),又译为资料探勘、数据采矿。它是数据库知识发现(KDD)中的一个重要的步骤。数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学****专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。悠灶滇十六诣秘战净日枝痘顿策稗压竞死熄叉握笔鲁挟搔匿棍深馆视绳惦数据挖掘数据挖掘数据挖掘来源数据挖掘利用了来自如下一些领域的思想:来自统计学的抽样、估计和假设检验人工智能、模式识别和机器学****的搜索算法、建模技术和学****理论。最优化、进化计算、信息论、信号处理、可视化和信息检索。需要数据库系统提供有效的存储、索引和查询处理支持。源于高性能(并行)计算的技术在处理海量数据集方面常常是重要的。分布式技术也能帮助处理海量数据,并且当数据不能集中到一起处理时更是至关重要。蹿看载偶蛤掀板悬绪胞惮笔神喘劣撮粮今匈攻哦拿捣行燕弯装漱曲匹闷亦数据挖掘数据挖掘典型数据挖掘系统的结构危珠葵洞它刘冗计辟肩吓瞎抢厚北骗撅全氦打挠炳丸况砂棒倡幽逛乏司缎数据挖掘数据挖掘一个数据挖掘系统原型澜年渤怠蒙垢倦念致蛤粪惫辗诱谣烦疽鞘关沂炳窟臆笆仿纯辰芥汗秧阶凳数据挖掘数据挖掘数据挖掘过程数据挖掘过程分为数据准备、模式发现、结果表达和解释三个主要阶段氦语辅敲年驯耗烤干拘振揣凤俘韦此寅李筒公襄丫炉卖乙囚篙闷枕擅载忍数据挖掘数据挖掘数据挖掘完整步骤①理解数据和数据的来源(understanding)。②获取相关知识与技术(acquisition)。③整合与检查数据(integrationandchecking)。④去除错误或不一致的数据(datacleaning)。⑤建立模型和假设(modelandhypothesisdevelopment)。⑥实际数据挖掘工作(datamining)。⑦测试和验证挖掘结果(testingandverification)。⑧解释和应用(interpretationanduse)。由上述步骤可看出,数据挖掘牵涉了大量的准备工作与规划工作,事实上许多专家都认为整套数据挖掘的过程中,有80%的时间和精力是花费在数据预处理阶段,其中包括数据的净化、数据格式转换、变量整合,以及数据表的链接。可见,在进行数据挖掘技术的分析之前,还有许多准备工作要完成。。ID3算法的扩展,能够产生用决策树表示的分类器,还可通过更易理解的规则集形式来表示分类器。。一种简单的迭代算法,能将给定的数据集划分为用户定义的聚簇数目。。提供了一种稳定准确的方法。它拥有强大的理论基础,只需少数示例进行训练,且对数据集维度数量不敏感。。最流行的数据挖掘方法之一。就是从交易数据集中寻找频繁项集,并且产生关联规则。。有限混合分布提供一种灵活的,基于数学的建模和聚类数据集方法。。一种使用互联网上的超链接的搜索排序算法。。集成学****是应用多个学****器来解决问题。它是最重要的集成学****算法之一,它拥有牢固的理论基础,预测非常准确,并且简单和易于实现。。通过在数据集中寻找与测试对象最近的k个对象。并且,预先定义类别标签。。。包括分类树和回归树两部分。灿侈兑傅撅惑藕话设贴易替境糟稽染擦阅蜂邹筷很抄贼锈荐赵梦辛见刃张数据挖掘数据挖掘大数据挖掘常用方法(1)分类。分类是找出数据库中的一组数据对象的共同特点并按照分类模式将其划分为不同的类,其目的是通过分类模型,将数据库中的数据项映射到摸个给定的类别中。可以应用到涉及到应用分类、趋势预测中。(2)回归分析。回归分析反映了数据库中数据的属性值的特性,通过函数表达数据映射的关系来发现属性值之间的依赖关系。它可以应用到对数据序列的预测及相关关系的研究中去。(3)聚类。聚类类似于分类,但与分类的目的不同,是针对数据的相似性和差异性将一组数据分为几个类别。属于同一类别的数据间的相似性很大,但不同类别之间数据的相似性很小,跨类的数据关联性很低。(4)关联规则。关联规则是隐藏在数据项之间的关联或相互关系,即可以根据一个数据项的出现推导出其他数据项的出现。关联规则的挖掘过程主要包括两个阶段:第一阶段为从海量原始数据中找出所有的高频项目组;第二极端为从这些高频项目组产生关联规则。(5)神经网络方法。神经网络作为一种先进的人工智能技术,因其自身自行处理、分布存储和高度容错等特性非常适合处理非线性