文档介绍:该【可视化关键技术公开课获奖课件赛课一等奖课件 】是由【读书百遍】上传分享,文档一共【42】页,该文档可以免费在线阅读,需要了解更多关于【可视化关键技术公开课获奖课件赛课一等奖课件 】的内容,可以使用淘豆网的站内搜索功能,选择自己适合的文档,以下文字是截取该文章内的部分文字,如需要获得完整电子版,请下载此文档到您的设备,方便您编辑和打印。高级大数据人才培养丛书之一,大数据挖掘技术与应用
何光威 主编 郑志蕴 梁英杰 朱琼琼 副主编
BIG
DATA
刘 鹏 张 燕 总主编
大数据可视化
第5章 大数据可视化的关键技术
可视化关键技术
高级大数据人才培养系列丛书
of
45
2
习题
第5章 大数据可视化的关键技术
of
45
3
对于“大数据”,研究机构Gartner给出了这样的定义:“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。麦肯锡全球研究所给出的定义是:一种规模大到在获取、存储、管理、分析方面大大超过了老式数据库软件工具能力范围的数据集合,具有海量的数据规模、迅速的数据流转、多样的数据类型和价值密度低四大特征。
ITU :一种容许也许在实时性约束条件下搜集、存储、管理、分析和可视化具有异构特征的大量数据集的模式。
国内普遍接受的定义:具有数量巨大、来源多样、生成极快、且多变等特征并且难以用老式数据体系构造有效处理的数据。因此大数据的内涵不仅是数据自身,还包括大数据技术和大数据应用。
。
第5章 大数据可视化的关键技术
of
45
4
大数据的数据特征,有4V、5V、7V或11V特征等来描述。
容量(Volume):数据的大小决定所考虑的数据的价值和潜在的信息(量);
速度(Velocity):指获得数据的速度,实时获取需要的信息(速);
种类(Variety):构造化数据、半构造化数据和非构造化数据(类);
价值(value):价值密度低;合理运用大数据,以低成本发明高价值(价);
真实性(Veracity):数据的质量,数据清洗,去伪存真(真);
可视化(Visualization):可视化可推进大数据的普及应用(普);
粘性(Viscosity):改善顾客体验,增长顾客对媒体的粘性(粘);
上述定义均有一定的道理,尤其是5V定义,目前已经被越来越多地接受。大数据时代最大的转变,就是放弃对因果关系的渴求,取而代之关注有关关系。也就是说,只要懂得“是什么”,而不需要懂得“为何”。
哪5V?
。
第5章 大数据可视化的关键技术
of
45
5
一种概念体系
二个价值链维度
指它为大数据参照架构中使用的概念提供了一种构件层级分类体系,即“角色-活动-功能组件”,用于描述参照架构中的逻辑构件及其关系
“IT价值链”和“信息价值链”,其中“IT价值链”反应的是大数据作为一种新兴的数据应用范式对IT技术产生的新需求所带来的价值,“信息价值链”反应的是大数据作为一种数据科学措施论对数据到知识的处理过程中所实现的信息流价值。
大数据参照架构总体上可以概括为“一种概念体系,二个价值链维度”。
第5章 大数据可视化的关键技术
of
45
6
大数据参照架构图的整体布局按照代表大数据价值链的两个维度来组织,即信息价值链(水平轴)和IT价值链(垂直轴)。
第5章 大数据可视化的关键技术
of
45
7
系统协调者
系统协调者角色提供系统必须满足的整体要求,包括政策、治理、架构、资源和业务需求,以及为确保系统符合这些需求而进行的监控和审计活动。
系统协调者的功能是配置和管理大数据架构的其他组件,来执行一个或多个工作负载。
系统协调者也可以通过管理角色监控工作负载和系统,还可能弹性地分配和提供额外的物理或虚拟资源,以满足由变化/激增的数据或用户/交易数量而带来的工作负载需求。
01
参照架构可以用于多种大数据系统构成的复杂系统(如堆叠式或链式系统),这样其中一种系统的大数据使用者可以作为此外一种系统的大数据提供者。
第5章 大数据可视化的关键技术
of
45
8
数据提供者
数据提供者角色为大数据系统提供可用的数据。数据提供者通常需要为各种数据源(原始数据或由其它系统预先转换的数据)创建一个抽象的数据源,通过不同的接口提供发现和访问数据功能。
在一个大数据系统中,数据提供者的活动通常包括采集数据、持久化数据、对敏感信息进行转换和清洗、创建数据源的元数据及访问策略、访问控制、通过软件的可编程接口实现推或拉式的数据访问、发布数据可用及访问方法的信息等。
针对大数据的4V特性和系统设计方面的考虑,暴露和访问数据的接口需要根据变化的复杂性采用推和拉两种软件机制。这两种软件机制包指订阅事件、坚挺数据馈送、查询特定数据属性或内容,以及提交一段代码来执行数据处理功能。
02
第5章 大数据可视化的关键技术
of
45
9
大数据应用提供者
大数据应用提供者在数据的生命周期中执行一系列操作,以满足系统协调者建立的系统要求及安全和隐私要求。大数据应用提供者通过把大数据框架中的一般性资源和服务能力相结合,把业务逻辑和功能封装成架构组件,构造出特定的大数据应用系统。
大数据应用提供者角色的扮演者包指应用程序专家、平台专家、咨询师等。大数据应用提供者角色执行的活动包括数据的收集、预处理、分析、可视化和访问 。
大数据应用提供者可以是单个实例,也可以是一组更细粒度大数据应用提供着实例的集合,集合中的每个实例执行数据生命周期中的不同活动。
03
第5章 大数据可视化的关键技术
of
45
10
搜集活动用于处理与数据提供者的接口。它可以是一般服务,也可以是特定于应用的服务。
预处理活动执行的任务类似于ETL的转换(transformation)环节,包括数据验证、消洗、去除异常值、原则化、格式化或封装。
分析活动的任务是实现从数据中提取出知识。分析活动还可以使用大数据框架提供者的消息和通信框架在应用逻辑中传递数据和控制功能。
可视化活动的任务是将分析活动成果以最利于沟通和理解知识的方式展现给数据消费者。可视化的功能包括生成基于文本的汇报或者以图形方式渲染分析成果。可视化的成果可以是静态的,存储在大数据框架提供者中供后来访问。可视化活动可以完全由应用程序实现,也可以使用大数据框架提供者提供的专门的可视化处理框架实现。
访问活动重要集中在与数据消费者的通信和交互,访问活动与数据消费者的接口可以是同步或异步的,也可以使用拉或推软件机制进行数据传播。