文档介绍:基于管线运营的大数据分析平台研究
[摘 要]针对管线运营中产生的海量信息未被有效利用的问题,文章总结分析了国内外管线运营数据分析研究的现状及存在的问题。为达到管线运营数据合理分析应用目的,总结了管线运营数据分析的主要研究内容,线数据挖掘模型研究
管线数据指标体系自动识别:传统的管线数据分析包括人工分析和简单的程序分析,但随着海量管线数据的采集和积累,传统的分析方式都难以实现对管线大数据指标识别。基于大数据技术的管线数据对互联网、物联接入、管线运营、应急指挥、安全监管等数据进行分析,可以实现对管线指标体系自动识别的效果,提升管线画像的分析能力。
管线数据高维分析:[7]管线数据指标体系中的指标数量众多,指标数据之间可能存在多种相关关系,指标分析维度呈现多样化分析。通過高维分析技术,可以将指标维度进行汇集、合并,自动对维度与指标关系进行判断,从而尽可能减少边缘维度对关键维度可能出现安全隐患的管线提前预警,提高管线运营整体的工作效率,降低管线维修维护成本。
管线安全状态预测预警:通过对温度、湿度、流速、压力等管线物联检测数据与管线运行时间、材质等管线业务数据进行综合分析和挖掘,可实现对管线运行安全状态实时监控、趋势走向进行预测分析,提升管线指标数据分析的准确性和完整性。 4 管线大数据平台
管线大数据平台主要解决面向大数据的采集、存储、管理、计算和分析应用等应用。平台总体架构包括管线数据采集与处理平台、管线数据存储与管理平台、管线分布式计算与挖掘平台、管线大数据分析平台模块,以及用于管理软件组件以及集群硬件的大数据平台管理模块。
(1)基础设施管理:包括服务器计算资源、存储设备资源、网络资源,为业务应用系统和大数据分析提供基础环境。
(2)管线数据采集与处理平台:针对互联网、物联接入、管线运营、应急指挥、安全监管等数据的采集要求,平台通过集成和开发等方式,设计了多种应用场景下的数据采集工具,根据不同数据院特点对数据进行采集、清洗、转换和加载。
(3)管线存储与管理平台:提供对结构化和非结构化数据通过综合应用关系型数据库、列式数据库、内存数据库运算、并行数据库等数据库技术,支持海量异构数据统一可靠的存储管理,对外提供统一的分布式调用接口。
(4)管线分布式计算与挖掘平台:优化了分布式计算框架MapReduce和分布式内存计算框架Spark。并在此基础上构建面向管线运营管理业务的文本处理引擎、流处理引擎、数据挖掘引擎、搜索引擎等,进一步加强了管线数据分析能力的支撑。
(5)管线大数据分析平台:利用强大的分析能力,从互联网、物联接入、管线运营、应急指挥、安全监管等数据大量基础数据中分析、获得规律,并利用规律对未知数据进行预测,实现对管线数据进行高维分析、安全隐患分析、应急指挥分析、管线预警预测分析等。
(6)大数据平台管理模块:可以实现大数据平台的快速部署,包括平台的安装、部署、配置、运维、监控、数据操作等,以图形化的方式可以将大数据平台中各类服务、组建的使用情况进行可视化展现。
(7)主数据管理模块:支撑大数据平台中主数据的管理,包括元数据管理、主数据模型管理、主数据检索、数据质量管理、数据字典管理、数据接口管理和安全管理。
5 管线运营数据分