文档名称：

大数据可视化分析.doc

格式：doc 大小：159KB 页数：10页

下载后只包含 1 个 DOC 格式的文档，没有任何的图纸或源代码，查看文件列表

如果您已付费下载过本站文档，您可以点这里二次下载

预览

下载此文档

大数据可视化分析.doc

上传人:yzhluyin9 2017/12/8 文件大小：159 KB

下载得到文件列表

大数据可视化分析.doc

相关文档

文档介绍

文档介绍：大数据可视化分析-教育技术学论文
大数据可视化分析
陈明
(中国石油大学计算机科学与技术系,北京 102249)
摘?要:人类利用形象思维获取视觉符号中所蕴含的信息并发现规律,进而获得科学发现。文章介绍科学可视化、信息可视化和数据可视化的内涵,阐述大数据可视化分析方法。
关键词 :大数据;可视化分析;并行计算
文章编号:1672-5913(2015)05-0094-04 中图分类号:G642
专栏作家简介:陈明,男,中国石油大学计算机科学与技术系教授,博士生导师,特聘教授,研究方向为分布式并行计算、计算智能、软件工程、大数据计算等,[emailprotected]。
0 引言
人类的创造性不仅取决于逻辑思维,还与形象思维密切相关。人类利用形象思维将数据映射为形象视觉符号,从中发现规律,进而获得科学发现。期间,可视化关键技术对重大科学发现起到重要作用。在大数据时代,大数据可视化分析的研究与发展将为科学新发现创造新的手段和条件[1]。
数据可视化于20世纪50年代出现,典型例子是利用计算机创造出了图形图表。1987年,布鲁斯·麦考梅克等撰写的《Visualization in puting》促进了可视化技术的发展,将科学计算中的可视化称之为科学可视化[2]。20世纪90年代初期,出现了信息可视化。目前将科学可视化与信息可视化都归为数据可视化。
2 科学可视化
问题的提出
传统的科学可视化技术已成功应用于各学科领域,但如果将其直接应用于大数据,将面临实用性和有效性问题,这说明需要对科学可视化技术重新审视与深入研究。
分布式并行可视化算法
可扩展性是构造分布式并行算法的一项重要指标。传统的科学可视化算法应用在小规模的计算机集群中,最多可以包括几百个计算节点,而实际应用是要在数千甚至上万个计算节点上运行。随着数据规模的逐渐增大,算法的效率逐渐成为数据分析流程的瓶颈,设计新的分布并行可视化算法已经成为一个研究热点。
并行图像合成算法
传统的并行图像合成算法主要包括前分割算法、中间分割算法和后分割算法3种类型,前分割算法主要分为如下3步骤:
(1)将数据分割并分配到每个计算节点上;
(2)每个计算节点独立绘制分配到的数据,在这一步,节点之间不需要数据交换;
(3)将计算节点各自绘制的图形汇总,合成最终的完整图形。
从上述步骤中可以看出,由于节点之间可能需要大量的数据交换,尤其是步骤(3)可能成为算法的瓶颈。解决这个问题的关键是减少计算节点之间的通信开销,可以通过对数据进行划分并在各计算节点间进行分配来实现。划分和分配方案需要与数据的访问一致,原则是计算节点只使用驻留本计算节点的数据进行跟踪,从而减少数据交换。
并行颗粒跟踪算法的研究
传统的科学可视化研究对象主要集中在三维标量场数据。在科学大数据中,经常使用三维流场数据,其原因如下所述。
将二维的流场可视化方法直接应用在三维流的结构不可能都成功,每个颗粒虽然可以单独跟踪,但是可能出现在空间中的任何一个位置,这就需要计算节点之间通过通信交换颗粒。同时,当大量的颗粒在空间移动时,每个计算节点可能处理不同数量的颗粒,从而造成计算量严重失衡。解决这些问题的关键是减少计算节点之间的通信开销,其