1 / 9
文档名称:

数据挖掘课程报告.docx

格式:docx   大小:89KB   页数:9页
下载后只包含 1 个 DOCX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

数据挖掘课程报告.docx

上传人:buhouhui915 2017/11/24 文件大小:89 KB

下载得到文件列表

数据挖掘课程报告.docx

文档介绍

文档介绍:数据挖掘课程报告



XX
2012/12/8
信息高速发展的今天,面对海量数据的出现,如何有效利用海量的原始数据分析现状和预测未来,已经成为人类面临的一大挑战。由此,数据挖掘技术应运而生并得到迅猛发展。
学号XXXXXXX
绪论
数据挖掘是信息技术自然演化的结果,是指从大量数据中抽取挖掘出来隐含未知的、有价值的模式或规律等知识的复杂过程。
(1)数据是对客观事物记录下来的、可以鉴别的符号,这些符号不仅指数字,而且包括字符、文字、图形等等;数据经过处理仍然是数据。处理数据是为了便于更好地解释,只有经过解释,数据才有意义,才成为信息;可以说信息是经过加工以后、并对客观世界产生影响的数据。
(2)信息(1nformation) 是对客观世界各种事物的特征的反映,是关于客观事实的可通讯的知识。
(3)所谓知识,就是反映各种事物的信息进入人们大脑,对神经细胞产生作用后留下的痕迹。知识是由信息形成的。(4)在管理过程中,同一数据,每个人的解释可能不同,其对决策的影响可能不同。结果,决策者利用经过处理的数据做出决策,可能取得成功,也可能失败,这里的关键在于对数据的解释是否正确,即:是否正确地运用知识对数据做出解释,以得到准确的信息。
数据
数据类型:左边这张图中包含bool,string,int三种类型。
一个数据集中的所有数据对象都具有相同的数值属性集,则数据对象可以看作多维空间的点,每个维代表描述对象的一个不同属性
行:对象
列:属性
数据质量
数据预处理
相似度和相异度的度量
聚类和分类
在这里主要学****和应用了决策树的知识。
决策树的结构一棵决策树是这样一棵树,该树的每个非终端点均表示被考察数据项目的一个测试或决策。根据测试结果,选择某个分支。为了分类一个特定数据项目,我们从根结点开始,一直向下判定,直到到达一个终端结点(或叶子)为止。当到达一个终端结点时,一个决策树便形成了。决策树是运用于分类的一种类似于流程图的树结构[9]。其中的每个内部节点(internal node)代表对某个属性的一次测试,一条边代表一个测试结果,叶子(leaf)代表某个类(class)或者类的分布(class distribution)。最上面的节点是根结点。
这就是一颗简单的决策树。
决策树的特性:
决策树有很多的优点,是实际应用和学术研究领域最普遍采用的方法之一。主要特点有:
,它是非参数方法。事例空间被分成子空间,每一个子空间适用于不同的模型。一棵决策树能完全包含一个事例空间,如果有足够的数据,它能近似任意函数的最优贝叶斯错误率。
,单变量树的输出是不变的。例如,对x,log2x,或者作为第j个输入变量,会产生同样结构的树。因此没有必要考虑输入变量的转换式。另外由于对内部属性进行了选择,相对于有不相关输入变量的情况,而产生的树更加具有健壮性。
。所有的决策都是用来描述该问题的属性值上的。决策树具有这两个特性,具有可理解性和可解释性,它们是决策树被广泛使用的原因。
,分而治之,不需要回溯战略的一种贪婪算法。时间复杂是与例