1 / 13
文档名称:

大数据相关技术资料.docx

格式:docx   大小:241KB   页数:13页
下载后只包含 1 个 DOCX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

大数据相关技术资料.docx

上传人:niupai21 2022/5/13 文件大小:241 KB

下载得到文件列表

大数据相关技术资料.docx

相关文档

文档介绍

文档介绍:大数据平台

数据丿:仮平呛
可视化
DataCu be
数据开发 任务调度

厂机器学****平台
清洗转换
J
特征建楝
Scala/Java
SQL
Stream跑:拓扑图中失败状态的节点可进行重跑操作。
/ 补数据:可选择单个任务,或者多个任务(可跨流),多个任务一起执行补数 据操作。
/ 停止:停止任务运行,停止状态下再次运行为重新执行;
/ 暂停:暂停任务运行,暂停状态下再次运行为继续上次运行;
/ 忽略:对于某项任务前置任务未执行完成,且此前置任务不重要,可对前置任 务进行忽略操作。忽略的任务不在运行,自动进行下游任务运行;
(8) 任务流运行状态:
/ 以拓扑图形式查看任务流运行结果,每个任务运行状态,运行成功/失败有颜 色差异体现;
/ 可基于任务流名称、时间选择、责任人、任务类型、调度方式、执行频率、运 行状态检索实例。
/ 检索出的实例按照所属任务流进行分组,第一层展示任务流信息包括:任务流 名称、任务流描述、责任人、执行频率、创建时间、发布状态、操作(展开/ 收缩);第二层为实例信息包括:实例id、所属任务流、责任人、调度方式、 执行时间、执行结果、操作(查看运行分析);
/ 任务分析详情页,展示任务流拓扑图、每个节点执行状态、任务执行报告。在 拓扑图中可右键对任务进行异常处理,异常处理包括:重跑、补数据、停止、 暂停、忽略、查看日志。异
/ 视角可切换为全局视角,全局视角展示当前视图的任务流上下游任务流,并体
现关联实例的运行状结果。
平台应用:
智能产品数据采集服务:用户使用产品的行为数据,产品运行过程状态数据
智能产品数据共享服务:产品和产品之间数据共享协作服务
(2)机器学****平台;
平台框架:
机器学****平台应用架构图
逾用算法
舉奏评B
回归评ft
状离户
劉形牝IE置

惇止
分类评衍
模型开发人员
应用层
率合运维
执行引擎
统旳析
沥可视化
数据处理
琳 M :^EI程
实时的
算法库
ir r
1 专龜
nL
囹计冀
■ ’
舷孚刁
回归
Hjwe
关联 R Python
I
| 密
I
Spark
HDFS
平台服务层
基础平台
基础层
技术方案:
待补充
主要实现的功能:
> 平台应用:
机器学****本质是使用样本数据或以往的经验来解决给定的问题,主要应用在数据挖掘场
景下,即指从大量的数据中通过算法获取隐藏于其中信息的过程。机器学****在金融、市 场营销、制造业、网络分析和电信领域都有较多应用。在金融领域,银行分析历史数据, 构建用于信用分析、诈骗检测等方面应用模型;在市场营销领域,机器学****技术较广泛地 应用于分类型和关联型任务;例如,购物篮分析通过找出顾客购买的产品的关联,制定出产 品组合销售的策略,货物位置的摆放,产品促销和产品库存。在制造业,学****模型可用于 优化、控制以及故障检测等;在电信领域,机器学****技术在分类、预测和侦查型任务方面 均有较多应用。例如,欺诈侦查通过收集过去的欺诈行为数据,建立的模型可以有效的鉴 别类似发生的电信欺诈行为。在网络分析领域,机器学****技术应用较为广泛的是关联型任 务。用户在应用数据挖掘技术时,应充分了解各种技术与方法的优势与劣势,针对特定的 环境与任务选择合适的技术。
(3)元数据管理平台
平台框架:
訣据业务功能■
Meta-Info \
日 I I
"L-
执行历史/ 记录/
信启抽取、分折■
历史礙
> 技术方案: 从 Hive 的 Meta-Data DB 中抓取 Hive 表、字段、表授权等信息,自动采集 Hive 仓库基 础及管理元数据信息,并基于CBT的任务配置信息分析Hive表之间的数据血缘。在提 供 Hive 仓库维护功能之外,提供数据血缘影响分析,提醒用户维护操作的影响范围。
主要实现的功能:
平台应用:
元数据主要意义:全企业的信息地图,通过自动化的多源头元数据采集,自动分析汇总, 形成完整的企业数据地图,使用户能够从全局视角审查企业整体数据状况;数据来源的 追溯,使用元数据产品能够,方便内部管理、审计或外部监管的需求追溯业务指标、报 表的数据来源和加工过程;数据来源的追溯,使用元数据产品能够,方便内部管理、审
计或外部监管的需求追溯业务指标、报表的数据来源和加工过程;数据共享,最大化提
高数据应用价值,实现产业链间的数据共享;
4)智能计算平台
> 平台框架:
技术方案:
支持各种业务场景下的大规模离线、实时、准实时数据的计算和存储
主要实现的功能:
> 平台