文档介绍:XI`AN TECHNOLOGICAL UNIVERSITY 课程设计报告课程名称数据挖掘专业:信息管理与信息系统班级: 130513 姓名:贾丹丹学号: 130513117 指导教师:李刚成绩: 2016 年1月3日前言数据挖掘就是从大量的数据中挖掘出有用的信息。它是根据人们的特定要求,从浩如烟海的数据中找出所需的信息来,供人们的特定需求使用。据国外专家预测,随着数据量的日益积累和计算机的广泛应用,在今后的 5—10年内,数据挖掘将在中国形成一个新型的产业。数据挖掘,在人工智能领域****惯上又称为数据库中的知识发现(Knowledge Discovery inDatabase, KDD) , 也有人把数据挖掘视为数据库中知识发现过程的一个基本步骤。知识发现过程由以下三个阶段组成:(1)数据准备(2)数据挖掘( 3 )结果表达和解释。数据挖掘可以与用户或知识库交互。数据挖掘是通过分析每个数据,从大量数据中寻找其规律的技术,主要有数据准备、规律寻找和规律表示 3个步骤。数据准备是从相关的数据源中选取所需的数据并整合成用于数据挖掘的数据集;规律寻找是用某种方法将数据集所含的规律找出来;规律表示是尽可能以用户可理解的方式(如可视化)将找出的规律表示出来。数据挖掘中的分类反映同类事物共同性质的特征型知识和不同事物之间的差异型特征知识。最为典型的分类方法是基于决策树的分类方法。它是从实例集中构造决策树,是一种有指导的学****方法。该方法先根据训练子集(又称为窗口) 形成决策树。如果该树不能对所有对象给出正确的分类,那么选择一些例外加入到窗口中,重复该过程一直到形成正确的决策集。最终结果是一棵树,其叶结点是类名,中间结点是带有分枝的属性,该分枝对应该属性的某一可能值。目录 1 业务理解......................................................................................................................................... 1 2 数据理解......................................................................................................................................... 1 英文版数据说明.................................................................................................................. 1 数据的读入.......................................................................................................................... 2 浏览数据内容...................................................................................................................... 2 指定各个变量的作用.......................................................................................................... 3 观察各变量的数据分布特征.............................................................................................. 4 3 数据准备......................................................................................................................................... 4 对数据进行重新分类.......................................................................................................... 4 对数据进行平衡处理...........................................................