1 / 13
文档名称:

数据挖掘论文.doc

格式:doc   大小:416KB   页数:13页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

数据挖掘论文.doc

上传人:aideliliang128 2018/5/1 文件大小:416 KB

下载得到文件列表

数据挖掘论文.doc

文档介绍

文档介绍:《数据挖掘》
课程论文
基于决策树数据挖掘技术在还贷信用度中的应用
连馥莉
任课教师姓名曹慧荣

所在学院数信学院专业名称信息与计算科学专业
论文提交日期 . 28 所在高等院校廊坊师范学院

2010年5月27日

数据挖掘、OLAP是当前基于大型数据库或数据仓库的新型信息分析技术,在许多领域得到广泛应用,取得了很好的成效。如何将其应用于财务决策以提高决策的正确性、及时性,降低决策的风险,已成为财务管理领域的重要研究课题。本文在介绍数据挖掘、OLAP技术及其相互关系的基础上,分析了财务决策领域应用这两种技术的现实必要性,并进一步论述了财务决策中数据挖掘和OLAP的应用流程。
(Data Mining)概述

数据挖掘,又称数据库中的知识发现,是指从大量的不完全的,有噪声的,模糊的数据中提取隐含的、未知的、非平凡的及有潜在应用价值的信息或模式。它融合了数据库、人工智能、机器学习、统计学等多个领域的理论和技术。关于数据挖掘,-Shapiro等人提出的。他们认为:数据挖掘是从大型数据库中提取人们感兴趣的知识,这些知识是隐含的、事先不知的,潜在有用的信息。数据挖掘涉及到机器学习、模式识别、统计学、智能数据库、知识获取、数据可视化、高性能计算、专家系统等各个领域。它不仅面向特定数据库的简单检索查询调用,而且要对这些数据进行微观、中观乃至宏观的统计、分析、综合和推理,以指导实际问题的求解,企图发现事件间的相互关联,甚至利用已有的数据对未来的活动进行预测。
数据挖掘的一个重要功能是分类。分类是指将数据映射到预先定义好的群组或类。因为在分析测试数据之前,类别就已经被确定了,所以分类通常被称作有指导学习。常用的分类方法有基于统计的方法、基于距离的方法、基于决策树的方法、基于神经网络的方法、基于规则的方法等。用决策树进行分类,生成规则易于理解并且高效,由于树的规模独立于数据库规模,所以决策树对于大规模数据库具有很好的扩展性。决策树算法存在的缺点是:不易于处理连续数据;对缺失数据的处理也很困难;决策树过程忽略了数据库中属性之间的相关性。1986年Quinlan提出了著名的ID3算法, ID3算法是发展的比较完善也是比较简单易懂的一种决策树算法。在ID3算法的基础上,,它在ID3基础上增加了---对连续属性的离散化。,主要在执行效率和内存使用方面进行了改进,因此本文仅就


(1)分类。分类可以找出描述并区分数据类别或概念的属性或模型,以便能够使用模型预测未知的对象,导出模型基于对训练数据集的分类分析。
(2)关联分析。若两个或多个变量的取值之间存在某种规律性,就称为关联。关联可分为简单关联、时序关联、因果关联等。关联分析的目的是找出数据库中隐藏的关联网,生成的规则一般带有一定的可信度。
(3)聚类。数据库中的数据记录可被划分为一系列的子集,即聚类。聚类增强了对客观现实的认识,是概念描述和偏差分析的先决条件。聚类技术主要包括模式识别方法和数学分类学等。
(4)偏差检测。偏差检测指从数据库中检测出一些异常记录的偏差。偏差包括很多知识,如分类中的反常实例、不满足规则的特例、模型预测值与观测结果的偏差等等。偏差检测的基本方法是寻找观测结果与参照值之间有意义的差别回。
(5)概念描述。概念描述就是对对象内涵进行描述,并概括对象的相关特征。概念描述分为特征性描述和区别性描述,前者描述某类对象的共性,后者描述不同类的区别。生成一个类的特征性描述只涉及该类对象的共性。生成区别性描述的方法包括决策树方法和遗传算法等。
(6)自动预测趋势和行为。以往需要进行大量手工分析的问题,借助数据挖掘可自动在大型数据库中寻找预测性信息。

(1)归纳学习类。归纳学习类可分为基于信息论方法挖掘类如决策树分类方法等)和基于集合论方法挖掘类(如粗糙集理论方法等)。
(2)仿生物技术类。可分为神经网络方法类和遗传算法类。
(3)公式发现类。在科学实验与工程数据库中,用人工智能方法寻找和发现连续属性之间的关系,建立变量之间的公式,从而把大量的数据概括在公式中。
(4)统计分析类。由于统计分析能对数据库中数据求出各种不同的统计信息和知识,所以也构成了数据挖掘中的一大类方法。
(5)模糊数学类。模糊数学是反映人类思维方式的数学概念。将模糊数学应用于数据挖掘中,就形成了模糊数据挖掘类,如模糊聚类、模糊分类和模糊关联规则等。

(6)可视化技术类。可视化技术是一种图形显