1 / 7
文档名称:

数据挖掘技术在经济统计中的应用研究.doc

格式:doc   大小:15KB   页数:7页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

数据挖掘技术在经济统计中的应用研究.doc

上传人:抱琴 2022/5/18 文件大小:15 KB

下载得到文件列表

数据挖掘技术在经济统计中的应用研究.doc

文档介绍

文档介绍:数据挖掘技术在经济统计中的应用研究
吉立爽
[摘要]经济统计中会收集经济运行数据,把这些数据收录在数据库中,数据有一定的空值和噪声,这些不利于数据的挖掘,因此为了保证数据挖掘的准确性,需要对数据预处理。文章主要研究的是 对数据的使用时首先需要对数据的收集,但是在收集的数据中不一定完整,有些数据会出现不统一的情况,而有的数据内容不能够使用,还有的数据内容完全不符合收集要求,因此对于收集的数据需要使用处理方法[3]。数据预处理是数据基础处理的一种方法,使用预处理在经济数据收集中能够预先对数据的处理。数据预处理主要包括三个组成部分:一是数据的变换;二是数据的集成;三是数据的清理。
数据清理中主要是把收集的经济数据里面存在的一些数据不符合以及数据不全面的内容去除。采用清楚法一般会采用四种方法:一种是频率统计法,另一种是预测法,还有一种是平滑法,最后一种是均值法。使用这些方法需要具体情况具体分析,在不同的经济数据分析中需要采用不同的方法。比如在经济统计数据中存在噪声或者是空值数据情况时,采用的清楚数据方法可以采用均值法。同样在数据中有着噪声或者是空值情况时,也可以采用平滑法清楚。使用的均值法和平滑法的不同之处是,平滑法是采用加权平均数代替了均值法中的平均数,平滑法使用在经济数据的统计中能够更好地实现数据的真实性。均值法主要是采用均值来弥补数据中的空缺,这种方法也是能够获得准确度较高的数据。这些统计方法中都是各有各的特点,在实际使用过程中,需要根据实际需要的取值方法,采用不同的数据处理方法来保证数据信息的准确性。
数据集成中主要是把不相同的数据集合在一起,保证这些数据能够形成一个总体[4]。数据的集成需要注意两个方面的内容:一个是保证数据能够集合在一起;另一个是保证集合数据的准确性。社会在不断的发展,社会经济数据也是在一个不断积累的过程,造成经济数据量非常庞大。而且在提供数据的来源中也是多个方面,数据可以由官方提供,也可以是来源于个人,又或者是社会主体提供。这些不同模式的数据提供在数据的集成过程中会遇见两个方面的问题:一个是冗余问题,另一个是模式集成问题。在模式集成问题中,主要是在实体识别存在的问题,因为在对数据挖掘时,会有多个数据多种模式出现。数据中的冗余问题主要是在数据多余的情况,为了减少在数据库中数据容量问题,需要保持数据的最少化。数据收集以后会形成数据库,并且需要对数据的挖掘,挖掘时采用不同的方法把数据的内容呈现出来。经济数据的挖掘工作中,是对经济数据的一次深加工过程。使用挖掘数据技术以后,呈现出来的经济数据更加简单化,为数据的使用者提供便利,也可以为决策者提供数据的支撑。
数据变换主要是使用不同的方法对数据转化,保证转化以后的数据能够满足数据挖掘的要求,数据的变换中包括两个方面的内容:一个是数据的规模化;另一个是数据泛化。其中在数据的规范化中又包括了以下方面的内容,分别是最小化规范、最大化规范和零均值规范。数据的泛化中主要是在高层次的数据替换低层次的数据,这个方面包括了数据的连续性问题。在现在的数据处理中,很多方法是不能够连续性处理数据,造成的后果是出现数据的离散化。在对经济数据的收集过程中,实际上需要尽量减少对数据的收集,减少数据的收集又称作概念分层。
32决策树方法
決策树方法在经济数据