文档介绍:
摘要
:,即是对id3算法的改进,它在id3算法的基础上进行数据的处理分析,保留了id3算法的大多优点,而且在预测变量的处理分析技术方面都有了很大的进步,
摘要
:,即是对id3算法的改进,它在id3算法的基础上进行数据的处理分析,保留了id3算法的大多优点,而且在预测变量的处理分析技术方面都有了很大的进步,这种算法的出现可以解决决策树数集分类问题。本文在对决策树算法进行钻研,在天气数据集上,,并对树的模型进行分析。从结果来看,,更接近实际情况。
关键词
:数据挖掘;数据处理;决策树;;id3;预测变量
近年来,我国经济飞速发展,科学技术方面也得到了巨大的进步,人们也不断在其他领域进行探索,信息技术的迅猛发展标志着信息时代已经到来,伴随而来的是数据的爆发,“大数据”被越来越多的提及。目前数据挖掘技术主要运用在对信息的提取、分类、筛选等方面,以获取有用信息,而决策树算法就是其中之一。随着大数据时代的到来,人们对于海量信息背后蕴藏的知识的渴求更加强烈,数据的处理方法势必受到关注和重视,以帮助人们找到这些海量数据背后所存在的规律和相应的关系,以根据现有规则对未来事物或发展做出预测。
1知识挖掘概念与步骤
数据挖掘是一个对数据处理分析的过程,对海量数据进行分析处理以挖掘探索有价值知识的过程,简单说来就是从大量知识中找到有价值的、自己所需要的知识。知识挖掘一般是由以下几个步骤构成:(1)数据清洗:用来清洗和剔除不相关的数据知识。(2)数据集成:将来自于不同地方的数据资源集合在一起。(3)数据转换:将集合起来的数据资源转换成易于存贮的形式,便于后续程序运用。(4)数据挖掘:主要作用是利用先进智能的方法来挖掘数据或将数据知识进行规律归纳,是整个过程中的基本步骤。(5)模式评估:此环节是根据标准评价出具有价值的数据知识。(6)知识表示:利用相关技术向用户展示所需要的数据知识。决策树算法综述:决策树中应用了熵的三种形式,分别是信息熵、条件熵和互信息。熵是一个衡量指标,衡量海量数据中信息知识的不确定性。信息知识的不确定性可以决定熵的大小,两者呈正相关联系,而数据信息的不确定性和复杂程度是由概率来决定的。若信息只有一类,则纯度最高,熵值为0;若信息有两类且数量相同,则混乱度最高,纯度最低,熵值为1。下面是一元模型中信息熵的计算公式,其中c为特征数量,p为特征在总数中的占比,t为随机变量:(1)以下是条件熵e(t,x)的计算公式,p(c)为每个特征值的占比,e(c)为特征值的信息熵。条件熵的值越低说明二元模型的不确定性越小。(2)决策树算法从本质上来讲就是对数据进行测算,再根据属性相似度进行归属分类,构造出树状图,从最上面的根节点出发,由上至下分出各个子节点,直到数据属性不能在进行分裂为止。在进行分类递归时,选择合适的特征作为节点决策树构造中最为重要的环节。
构建id3算法决策树所用到的天气数据集如表1所示。构建决策树根结点所用到的信息:分类信息熵如表2所示。构建