文档名称：

数据挖掘数据仓库A.doc

格式：doc 页数：8页

下载后只包含 1 个 DOC 格式的文档，没有任何的图纸或源代码，查看文件列表

如果您已付费下载过本站文档，您可以点这里二次下载

预览

下载此文档

数据挖掘数据仓库A.doc

上传人:2286107238 2016/3/12 文件大小：0 KB

下载得到文件列表

数据挖掘数据仓库A.doc

相关文档

文档介绍

文档介绍：.页眉. .页脚. 《数据挖掘与数据仓库》课程试题【A 】卷阅卷须知: 阅卷用红色墨水笔书写,得分用阿拉伯数字写在每小题题号前,用正分表示, 不得分则在题号前写 0; 大题得分登录在对应的分数框内;统一命题的课程应集体阅卷,流水作业; 阅卷后要进行复核,发现漏评、漏记或总分统计错误应及时更正; 对评定分数或统分记录进行修改时,修改人必须签名。特别提醒:学生必须遵守课程考核纪律,违规者将受到严肃处理。一、题目( 100 分) 1、 CURE 算法的应用研究以《 CURE 算法的应用研究》为题目写一篇论文,要求写一篇聚类算法的具体的应用方面论文论文内容主要包括: 题目、摘要、引言、算法基本原理、算法的发展近况以及算法的具体应用实例。最好能提出自己的改进思想。二、要求如下: 1、每个同学根据对 CURE 算法的理解和自己的兴趣, 该聚类算法在实际生产中的具体应用来写 1 篇论文; 2 、尽量考虑对算法本身进行适当的改进; 3 、每个同学必须提交一份打印的纸质论文; 4 、抄袭者以 0 分记。西南大学荣昌校区信息管理系 2012 ~ 2013 学年第1 学期期中考查考试时间 1周考试方式其他考核学生类别本科人数 120 适用专业或科类信息管理与信息系统、计算机科学与技术年级 2010 级题号一二三四五六七八九十合计得分签名西南大学课程考核命题单《 CURE 算法的应用研究》摘要: 本文介绍了 CURE 算法的基本原理与算法思想的形成过程, 并针对 CURE 算法在大型数据库中选区代表点中存在的问题提出了改进方法。针对大型数据库, CURE 采用随机取样和划分两种方法的组合:一个随机样本首先被划分,每个划分都被部分聚类。这样,代表点是来自一组随机抽取的样本集,而且它的最初数目也是人为确定的,这是需要改进的地方。引言: 随着计算机技术和信息技术的发展,信息的增长速度呈现指数上升, 已远远超出了人们分析它们并从中提取有用信息的能力。虽然数据库系统可以高效地实现数据的录入、查询、简单统计等功能,但却无法发现数据中存在的关系和规则,无法根据现有的数据预测未来的发展趋势,也就是说使用传统分析方法远远不能满足现实的需求。面对海量数据,如何从中发现有价值的信息或知识,成为一项非常艰巨的任务。人们迫切需要一种去粗存精、去伪存真的技术, 迫切需要一种能够对数据进行深层次加工的自动化技术。能够从海量的数据中提取知识和信息的数据挖掘技术应运而生。 CUR E 算法采用了一种新颖的层次聚类算法,该算法选择基于质心和基于代表对象方法之间的中间策略。算法基本原理 CURE 算法:利用代表点聚类 CURE 算法采用了一种新颖的层次聚类算法,该算法选择基于质心和基于代表对象方法之间的中间策略。它不用单个质心或代表一个簇, 而是选择数据空间中固定数目的具有代表性的点。簇的代表点产生方式: 首先选择簇中分散的对象, 然后根据一个特定的分数或收缩因子向簇中心“收缩”或移动它们。在算法每一步,有最近距离的代表点对(每个点来自不同簇)的两个簇合并。 CURE 算法的核心步骤: (1) 从源数据对象中抽取一个随机样本 S; (2) 将样本 S 分割为一组划分; (3) 对每个划分局部地聚类; (4) 通过随机取样剔除孤立点。如果一个簇增长得太慢,就去调它; (5) 对局部得簇进行聚类。落