文档介绍:大数据背景下工程造价数据挖掘问题研究
 
 
侯红 孟辉
摘要:随着网络信息技术的飞速发展,大数据时代已经到来,并渗透到各个领域中,针对具体专业领域的大数据应用研究也越来越多。然而对于工程造价领域来说,在这个方面却一直是个空白。文章从建筑企业在工程单价选取和估算的角度出发,梳理总结了面向工程造价数据特点的数据挖掘过程,并提出了基于聚类算法对工程造价数据进行分析处理的方法,为海量工程造价数据挖掘研究提供了有意义的探索。
关键词:工程造价;数据挖掘;聚类法
: :A :1001—5922(2021)01—0151—05
近些年来,随着网络信息技术的飞速发展,大数据时代已经到来,并渗透到众多领域中,针对具体专业领域的大数据应用研究也越来越多。然而对于工程造价领域来说,这个方面却一直是个空白,每天,借助互联网以及各种工程造价系统产生着海量的工程造价数据,但是却没有科学准确的处理方法对其进行处理,使其白白流失掉,工程造价信息的获取和传递仍然依靠传统的方式进行,时效性和准确性都无法满足当今工程管理领域的需求。而要对这些庞大的工程造价信息数据进行处理和挖掘,为工程管理过程的决策提供依据和参考,仅仅依靠人工的处理技术是远远不够的,要创新应用数据挖掘技术来充分利用工程造价海量数据的价值,以促进行业快速健康发展。
1大数据背景下工程造价数据分析
工程造价数据是指具体的工程项目在建设过程中用到的涉及人力、材料、机械等相关单价数据。这类数据对进行科学准确的工程造价管理,尤其是成本控制,起着决定性的作用。一般情况下,在实际的工程造价管理中,首先需要获取具体的工程造价数据信息,获取的方式有2种:①借助一些权威的造价信息平台发布的数据,当前较为权威的平台有全国各地的工程造价站、专业的工程造价信息网等;②实地调查,通过实地走访当地的市场完成数据的采集和获取,在获取原始信息之后对其进行相应的整合和处理,在其中选取可信度较高的数据信息。对于这两种方法来说,第一种的获取方式一般比较常用,因其成本低、且数据来源的可靠性相对也在可以接受的范围之内,因此,为大多数企业和科研院所广泛采用。在本文研究的过程中也主要采取此种方式为主要的数据获取方式,采取这样的方式获取工程造价数据,可能出现由于数据提供机构的不同、采集方式和参考标准的不同而导致不同数据来源对于相同物料的单价不尽相同,且通过这种方式采集到的数据变化频繁,更新周期呈现出越来越短的趋势,需要我们通过数据挖掘算法对采集到的原始样本数据进行分析和处理,辅助我们找到获取最准确数据的方法。
工程造价数据因为其本身应用领域和使用方式的不同,也呈现出区别于通用大数据的特点,具体说来,主要是:
1)数据类型多样。工程造价数据既包括动态变化的数据,比如工料和人力的价格,同时也包括一些所谓的静态数据,主要有国家以及各地关于工程造价方面的政策文件、规章制度、标准规范等,这些数据的变化相对来说具有一定的周期性,且一般变动周期较长,在本文中我們主要研究动态数据,但是在实际的工程造价管理过程中,静态数据也是关注的重点。
2)表现形式多样。来源于不同的数据平台和信息系统,工程造价的数据表现形式也不尽相同,这里的表现形式多样体现为2个不同的方面:①呈现形式包含文字、图表、数据等,②同一种形式也因为呈现平台和提供方的不同而具有不同的格式,比如大多数的工程造价信息平台虽然提供了数字形式的工程造价信息导出功能,但是输出的表格形式也不尽相同,在使用过程中还是需要先进行相应的变换和整合。
3)动态变化性。工程造价数据因为受到市场复杂因素的影响,其数据一直处于不断的变化中,不同平台和系统也因为不同的采样和更新周期将其离散化,但是数据本身变化的动态性是一直存在的。
4)多维复杂性。工程造价数据来源不同,形式多样,表现形式也呈现出不同的样式,加之变化频繁,构成的过程也呈现出一定的复杂性,以上因素都直接导致了工程造价数据的多维复杂性。
基于数据挖掘的基本流程,笔者提出了工程造价数据挖掘的基本流程及框架,如图1所示。
工程造价数据的处理和挖掘主要经历4个过程:数据获取和记录、数据抽取和清洗、数据建模和分析、数据解释。
数据获取和记录:数据获取和记录的过程是数据挖掘过程的基础,数据获取的过程是否可靠是直接关系到数据挖掘算法后续所有步骤和结果准确性的关键,这个过程的主要工作为解决数据的来源问题,包括数据获取和数据存储2个主要过程。
数据抽取和清洗:采集来的数据是不可以直接用来进行分析和挖掘的,需要对数据进行抽取和清洗,以形成适合数据分析的数据结构和模板,而且通过自动化系统抽取的样本数据会存在数据缺失、数据