1 / 3
文档名称:

地震大数据流式计算研究.pdf

格式:pdf   大小:1,530KB   页数:3页
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

地震大数据流式计算研究.pdf

上传人:住儿 2022/9/29 文件大小:1.49 MB

下载得到文件列表

地震大数据流式计算研究.pdf

文档介绍

文档介绍:该【地震大数据流式计算研究 】是由【住儿】上传分享,文档一共【3】页,该文档可以免费在线阅读,需要了解更多关于【地震大数据流式计算研究 】的内容,可以使用淘豆网的站内搜索功能,选择自己适合的文档,以下文字是截取该文章内的部分文字,如需要获得完整电子版,请下载此文档到您的设备,方便您编辑和打印。
地震大数据流式计算研究
王鹏辉,司冠南
(山东交通学院信息科学与电气工程学院,山东济南,250000)
摘要:在地震数据处理方面,对数据的实时性要求较高,而且随着地震检测台站的不断增多,地震数据的容量也在不断
增加。针对这些特点结合大数据技术,提出一种基于SparkStreaming技术的地震数据流式处理算法。将原始地震数据
经过清洗再由数据分发器Kafka传输至Spark大数据计算框架,使用Spark核心api-SparkStreaming进行流式计算,
将计算结果实时存入数据库,最后在进行数据实时可视化。
关键词:大数据;spark;流式处理
Researchonbigdataflowcomputing
WangPenghui,SiGuannan
(Schoolofinformationscienceandelectricalengineering,ShandongJiaotongUniversity,Jinan
Shandong,250000)
Abstract:Intheaspectofseismicdataprocessing,therequirementofreal-timedataishigh,and
withtheincreasingofseismicdetectionstations,thecapacityofseismicdataisalsoincreasing.
Inviewofthesecharacteristics,combinedwithbigdatatechnology,aseismicdatastreamprocessing
,and

coreAPIsparkstreamingisusedforstreamingcalculation,andthecalculationresultsarestoredin
,thedataisvisualizedinrealtime.
Keywords:bigdata;spark;streamingprocessing
0引言接进行大数据计算,需将地震数据格式等进行转换,转换为
地震数据的实时处理,可以更好对数据变化的检测,从适合大数据处理的数据格式,如SEED格式需将SEED转换为
而进行之后的决策。传统的地震数据处理算法大多数是由SAC数据文件再进行相关计算,这一步称为数据清洗。流式计
Matlab语言进行编程,为更好的适应大数据引擎的计算以及算中数据分发器Kafka是必不可少的。在流式计算中,Kafka
Spark框架支持的编程语言中选取语法简洁、易理解、科学计用来缓存数据,SparkStreaming通过消费Kafka的数据进
算功能强大的Python语言将原有算法进行重构。行计算。Kafka是一个分布式消息队列。Kafka对消息保
存时根据Topic进行归类,发送消息者称为Producer,消息
1地震流式处理计算流程接受者称为Consumer,此外kafka集群有多个kafka实例
根据地震数据特点结合大数据技术,流式计算流程如图组成,每个实例(server)称为broker。Kafka整体架构图如
1所示。图2所示。
基于SparkStreaming的地震大数据流式处理流程
ProducerProducerProducer
KafkaKafka
Kafka
Cluster
流式处理框架
SparkSreaming
地震数据清洗数据库
分布式文件系统ConsumerConsumerConsumer
HDFS
图2 Kakfa整体架构图
地震原始数据数据可视化
在Kafka中无论是producer往topic中写数据,还是
consumer从topic中读数据,都避免不了和offset打交道。
图1 基于SparkStreaming的地震大数据流式处理流程
offset即偏移量,若在流式计算中,若某个节点挂掉,可以通
如图1所示:由于地震数据的格式特点往往不适合直过设置偏移量保障容错性。
41
万方数据

2SparkStreaming进行流式计算3实验结果和分析
SparkStreaming运行流程如图3所示。
Spark集群采用1个主节点2个从节点。
ExecutorWorker1配置清单如表1所示。
Receiver表1实验软硬件环境
Spark-Driver配置值(每个节点)
CPU核心数8
SparkCore
硬盘1T
ExecutorWorker2内存32G
操作系统Centos7
Receiver
SparkSpark-(PySpark)
HadoopHadoop-
PythonPython-
图3 SparkStreaming运行流程JDKJDK-8u201
SparkStreaming的任务是基于SparkCore,
始化的时候会有一个Driver的服务存在。driver段会发送以地震互相关系数为例。地震互相关系数的计算主要分
Receivers到executor里面,Receiver就是一个接收器,接为两步:
收数据。Receiver接收数据,并将数据生成Block,接着把这(1)对地震原始数据进行清洗之后,按照实现设置的频
些Block存入executor的内存中;为保证数据丢失后仍能率进行滤波;
继续计算,一般会备份副本。Receiver把Block中元数据的(2)对滤波后的数据进行互相关计算。
信息发送Driver端。最后Driver端就会根据一定的时间间由于地震数据量庞大,而且这2步需要进行大量的迭代
隔,把这些block封装为一个RDD,然后进行计算。计算,可以使用两次转换操作。
SparkStreaming的核心抽象是Dstream。基于时间产生计算结果如图5所示。
的地震数据通过地震台站源源不断的产生数据,也就是无界
数据流。但其本质,DStream是一系列连续的RDD来表示。每
个RDD含有一段时间间隔内的数据。如图4所示。
******@******@******@time3
Time0Time1Time2
地震Dstream
to1to2to3
图4 Dstream示意图
对数据的进行的操作也是针对每一段RDD来进行操作
的。由于使用的是Spark的Python的接口,在编写程序时需
导入以下python第三方库:
frompysparkimportSparkContext图5 实时更新互相关系数结果图

如图5,数据随着时间不断变化,设置时间间隔为1s,即

每隔1s数据更新一次。互相关系数的取值范围为[-1,1],表
Spark批处理和流处理使用的算子大部分相同,在地震
示两段地震波形的相似程度。可以实时的观测结果。
数据处理方面我们主要使用的算子有map和transform,将
本文提出基于Kafka、SparkStreaming的地震大数据
地震算法封装为一个函数,使用这些算子可以作用在每一段
流式计算方法,并通过Spark集群计算地震互相关系数为例
RDD中进行计算。如在进行互相关系数(Cross-Correlation
进行测试,实现了地震数据计算结果的实时可视化,为地震
coefficient)计算时,result=(互相关系数算法)
分析后续工作提供了基础,更好的服务于地震大数据分析。
即可,语法十分简洁,且易理解。
SparkStreaming程序编写步骤:参考文献
(1)使用Kafka进行数据源的获取(Dstream);[1]
(2)通过对Dstream使用转换算子进行数据流的计算;设计[J].地震工程学报,2018,40(03):604-611.)
(3)()进行数据的获取和流式[2]王卫东,朱万成,张鹏海,
计算。稳定性评价方法及其在Spark平台的实现[J].金属矿
(下转第12页)
42
万方数据

交流低频电网被改变为直流,加上后级的π型滤波(C6,C7到资料,不再这里赘述,附上芯片基本框图,已方便读者理
L1,L2),完成了交流转直流的转换。解,如图7图8所示。
U1通过初启动电阻R14,R15和电容C9,建立初步供电
系统,触发内部开关管启动,形成电感T1B储能和LED负载,
U1内部开关开通和取样电阻回路(LED,T1BU1R20R21)。电
源管理芯片U通过R20,R21取样,形成反馈电路,约束开关管
开通时间,达到周期恒定电流的效果。当U内部开关管关闭时
候,T1BD6LED形成新电路回路,根据能量守恒定律,T1B
的能量传送给LED负载。通过取样电阻的大小,设定了恒定电
流的取值,系统通过取样电压和电感电流进行反馈,限制了
开关的开通和关闭时间,从而完成完整周期性的一个振荡恒
流系统工作。在开关的整个周期中,都有对CE1的充电状态,
同时CE1放电给LED负载,达到滤波平滑电压和电流的效果。
电感耦合绕组T1A为U持续供电绕组,其电压为负载电压通
过匝比耦合而来,经过半波整流形成直流电压供电给芯片U。
图7 芯片基本框图
其他为辅助功能接入,比如PF的补偿,过零电压的检测以及
过压保护的检测等。
在上述低频电路状态下,由于C4电容容量很小,其低频
下容抗量级很大,回路呈现高阻抗状态,其漏电极弱,对Q1和
Q2都不能给予支持工作的电流和电压。Q1和Q2处于断开状
态,从而低频状态的电源振荡系统工作不会受其影响。
当高频整流器接入DN1,DN2,DN3,DN4时候,C1和C2
在高频下呈现低容抗,模拟传统荧光灯的预热灯丝,从而提
高整流器在驱动改型电路中的兼容性。同时C4在高频电路时
图8电感算法图
候,出现合理漏电流,提供Q1的工作电流和Q2的工作电压
(开关类电子器件都有类似功能,原理上同样),Q1导通拉低4结束语
了U1的供电电压,迫使其系统停止,防止在高频电路工作模
本方案在一个产品上能够实现2针、4针互变,来满足
式下该系统误触发。同时Q2导通,整个电路回路避开了低频
G24D、G24Q应用,同时内部的线路设计配合灯头的切换实现
的振荡系统,BD1,D4,L1,LED,Q2完成了整流器接入LED的工
两种情形下的电路适应,终端客户根据需要进行切换灯头类
作回路(整流器设定为恒流源)。
型即可,不会出现买错装错的问题,减少中间商的库存种类,
综述如下:
简化终端产品选择的难度。其低能耗损,高光效以及长寿命
该电路根据输入市电低频(47-63HZ)或者高频整流器的
的特性也是环保节能的首先。
接入,进行漏电式判断。当接入低频线路时候,该漏电状态急
剧弱化,不能够满足后续电路的操作,致使B1相关部分失效,参考文献
不能对A3进行管制,其电路结构由A1,A2,A3,C1完成。当接
[1][D].湖南大学,2018.
入为高频整流器电路时,B1漏电有效,管制电路被触发,A3[2][M].沈阳:辽宁科学技术出版
整个系统被管制,不能形成回路,同时B2也触发,主体电路为社,-151.
,完成对LED[3]周云鹏,叶勇,
负载的供电。价系统软件[J].计算机辅助工程,.
其相关主电源芯片和电感算法在相关文献里都可以找
(上接第42页)
山,2019(08):147-156.[5]马文娟,刘坚,蔡寅,陈会忠,
[3]刘坚,李盛乐,戴苗,陈晓琳,康凯,刘珠妹,[J].地球物理学进
于Hbase的地震大数据存储研究[J].大地测量与地球展,2018,33(02):835-841.
动力学,2015,35(05):890-893.
[4]郭凯,黄金刚,彭克银,:司冠南,博士,副教授,硕导,研究方向:大数据与
数据中的研究应用[J].地震研究,2017,40(02):317-云计算,软件工程、软件测试。
323+334.)
12
万方数据