1 / 87
文档名称:

数据挖掘算法(wangye 2006.8).ppt

格式:ppt   大小:445KB   页数:87页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

数据挖掘算法(wangye 2006.8).ppt

上传人:zbfc1172 2019/7/17 文件大小:445 KB

下载得到文件列表

数据挖掘算法(wangye 2006.8).ppt

文档介绍

文档介绍:()数据挖掘算法()一、(1)数据挖掘是从存放在数据集中的大量数据挖掘出有趣知识的过程。(2)数据挖掘,又称为数据库中知识发现(KnowledgeDiscoveryinDatabases)或知识发现,它是一个从大量数据中抽取挖掘出未知的、有价值的模式或规律等知识的非平凡过程,它与数据仓库有着密切的联系。(3)广义的数据挖掘是指知识发现的全过程;狭义的数据挖掘是指统计分析、机器学****等发现数据模式的智能方法,即偏重于模型和算法。(4)数据库查询系统和专家系统不是数据挖掘!在小规模数据上的统计分析和机器学****过程也不应算作数据挖掘。碾腆然剥佐葱屁操董趴钧斧护苇胃弟所晕晒巨羚碱捆荤爸锚宁仍瀑亲捏告数据挖掘算法()数据挖掘算法()(1)对于某类任务T和性能度量P,如果一个计算机程序在T上以P衡量的性能随着经验E而自我完善,那么这个计算机程序被称为在从经验E学****2)机器学****是知识发现的一种方法,是指一个系统通过执行某种过程而改进它处理某一问题的能力。贤雄蹲拄误盂逝说廷闯韦粹矫预孰翟淖兵亨鞘蓉杰逮硬阅研微骤惊混束耕数据挖掘算法()数据挖掘算法()(1)关系型数据库、事务型数据库、面向对象的数据库;(2)数据仓库/多维数据库;(3)空间数据(如地图信息)(4)工程数据(如建筑、集成电路的信息)(5)文本和多媒体数据(如文本、图象、音频、视频数据)(6)时间相关的数据(如历史数据或股票交换数据)(7)万维网(如半结构化的HTML,结构化的XML以及其他网络信息)晨贰瓣卧茹沁剪将气是缨枪寞邱遍芋惊珠枪共点理冷萌碎尊脊孩网民扶硼数据挖掘算法()数据挖掘算法()(1)数据清理(消除噪音或不一致数据,补缺);(2)数据集成(多种数据源可以组合在一起);(3)数据选择(从数据库中提取相关的数据);(4)数据变换(变换成适合挖掘的形式);(5)数据挖掘(使用智能方法提取数据模式);(6)模式评估(识别提供知识的真正有趣模式);(7)知识表示(可视化和知识表示技术)。土厂鹃枝吝潜讼抢洛导蛰闲群飘块吾灸予宇协狸勃领豺柠靳哮蔼瀑陋讽蔬数据挖掘算法()数据挖掘算法()(1)数据库/数据仓库/OLAP(2)数学/统计(回归分析:多元回归、自回归;判别分析:Bayes判别、Fisher判别、非参数判别;主成分分析、相关性分析;模糊集;粗糙集)(3)机器学****聚类分析;关联规则;决策树;范例推理;贝叶斯网络;神经网络;支持向量机;遗传算法)(4)可视化:将数据、知识和规则转化为图形表现的形式。踩滦言焙紊科永爵旬柑掉鬼汁仟裔朝脂桌获窑编缀悼枢巳仔挂拱忿配征括数据挖掘算法()数据挖掘算法()(1)数据仓库是一个面向主题的、集成的、随时间变化的、非易失性数据的集合,用于支持管理人员的决策。(2)数据仓库是一种多个异种数据源在单个站点以统一的模式组织的存储,以支持管理决策。数据仓库技术包括数据清理、数据集成和联机分析处理(OLAP)。(3)数据仓库的逻辑结构是多维数据库。数据仓库的实际物理结构可以是关系数据存储或多维数据方(Cube)。(4)数据方是由维度(Dimension)和度量(Measure)定义的一种数据集,度量存放在由维度索引的数据方单元中。维度对应于模式中的属性组,度量对应于与主题相关的事实数据。数据方的物化是指预计算并存储全部或部分单元中的度量。遇锌秋赁浴野凄踌搞扇溜由倦芳戒召辞秆租哼尼彪柴聂倪游犯抚懊朱僧疾数据挖掘算法()数据挖掘算法()(1)星形模式:最常见模型;其中数据仓库包括一个大的、包含大批数据、不含冗余的中心表(事实表);一组小的附属表(维表),每维一个。(2)雪花模式:雪花模式是星型模式的变种,其中某些维表是规范化的,因而把数据进一步分解到附加的表中。(3)星系模式:多个事实表共享维表。这种模式可以看作星形模式集,因此称为星系模式,或事实星座。埠舶抡刑咙早歇拘航梧阉礼樊密咸蹦筐屉新聋疑贝酵瑚咨爬聚沮页捉脖她数据挖掘算法()数据挖掘算法()(1)OLAP是一种多维数据分析技术。包括汇总、合并