文档介绍:华北水利水电学院
硕士学位论文
基于ID3决策树算法的改进研究
姓名:何化玲
申请学位级别:硕士
专业:计算机应用技术
指导教师:陆桂明;海燕
2011-05-28
华北水利水电学院硕士学位论文
基于 ID3 决策树算法的改进研究
摘要
现阶段各级各类学校都有自己的课程成绩数据库,这些数据库中存放着大量的学生
课程成绩。学校对学生成绩数据的处理一般还停留在简单的数据库管理和查询阶段,不
能发挥其应有的作用。
数据挖掘可以从数据库的大量数据中,自动抽取或发现有用的信息。它是一个决策
支持过程,是深层次的数据信息分析方法,将它用在学生课程成绩原因分析方面是非常
有价值的。
本论文主要把数据挖掘的经典分类技术——决策树技术与中学教育教学管理成绩
数据库系统相结合,从中提取出隐藏在数据当中的有用信息,并进行分析,找出影响学
生课程成绩的各种因素以及各因素之间的关系,为个性化教学策略提供数据依据,为教
育部门提供决策支持,促使教育部门更好地开展教学工作,提高教育教学质量。
本论文介绍了数据挖掘的有关概念及决策树的各种算法,通过对几种较典型的决策
树算法进行分析比较,提出一种改进的ID3 算法。该算法的思想是将高等数学中的泰勒
公式原理与 ID3 算法的属性选择标准——信息熵的求解相结合,对其求解过程进行简
化,减小了算法的计算复杂度,提高了算法运行效率,使决策树的生成时间缩短。将简
化后的信息熵加权求平均,平衡了每个属性对数据集的不确定程度,使得属性的选择更
加合理化。为了解决数据中噪声与孤立点,本论文引入了趋近度,使最终生成的决策树
的规模尽可能小,同时又对改进的ID3 算法所生成的决策树进行剪枝,使最终生成的决
策树更加简洁。实践证明,改进后的 ID3 算法提高了决策树的构建速度,减少了算法的
运行时间,克服了原ID3 算法偏向于选择取值较多的属性作为测试属性的缺陷,同时也
使决策树在生成过程中规模尽可能小。改进的决策树算法在学生成绩分析中的应用诠释
了本论文研究的理论价值和实践价值。
本论文提出的改进算法优化了决策树的性能,表现出极好的分类效果,使决策树的
应用更具科学性。
关键词:决策树;ID3 算法;信息熵;信息增益;成绩分析
ⅠI
华北水利水电学院硕士学位论文
BASED ON ID3 DECISION TREE ALGORITHM’S
IMPROVEMENT RESEARCH
ABSTRACT
Present stage all levels of each kind of school has own curriculum result database, in
these databases is depositing the massive student curriculum result. The school also pauses
generally to student achievement data's processing in the simple data bank administration and
the inquiry stage, cannot play its proper role.
The data mining may from the database mass data, the automatic extraction or the
discovery useful information. It is a policy-making support process, is the deep level data
message analysis method, uses it in the student curriculum result reason analysis aspect has
the value.
The present paper mainly unifies data mining's classics classification technology - -
decision tree technology and the secondary education teaching management result database
system, withdraws hides in the middle of the data the useful information, and carries on the
analysis, discovers af