1 / 7
文档名称:

大数据计算平台建设方案.docx

格式:docx   大小:86KB   页数:7页
下载后只包含 1 个 DOCX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

大数据计算平台建设方案.docx

上传人:pppccc8 2022/6/11 文件大小:86 KB

下载得到文件列表

大数据计算平台建设方案.docx

相关文档

文档介绍

文档介绍:大数据计算平台建设方案

根据应用,这个项目数据量30T,企业数据量非常大, 需要大量并发,网络爬虫爬取的企业数据信息存储在数据 中心。
此数据量跟企业记录相关。同时,需要对清洗后的记 录和计算好的推荐结果进行存储,但是大数据计算平台建设方案

根据应用,这个项目数据量30T,企业数据量非常大, 需要大量并发,网络爬虫爬取的企业数据信息存储在数据 中心。
此数据量跟企业记录相关。同时,需要对清洗后的记 录和计算好的推荐结果进行存储,但是这些数据不放在数 据中心。此项目之后会做成实时计算,需要用到流式计算的 相关计算和调度。计算量很大,可以多部署DCS进程, 提高计算并发度,作业调度也要采用分部署调度架构。

云数据采集中心与大数据计算平台的关系是,云数据采 集中心提供存储和计 算资源,通过API的方式访问资源, 大数据计算平台主要实现核心算法,包括图像匹配算法, 挖掘算法,智能推荐算法,知识学****算法等等,也能够 通过 API的方式建立统计应用、智能推荐应用等等。大 数据计算平台的需要的数据:包括网上实时爬取得、二次 计算分析而获取的等等,都通过通用接口存储在云数据采 集中心的分布式存储平台中(分布式文件系统(S2DFS) 分布式数据库(D2B》计算时候,通过接口发起作业, 由云 数据采集中心的作业调度服务进程
(JSS)负责调度, 由数据计算服务进程DCS)负责计算处理,并把结果反馈 给大数据计算平台的各个应用。
, 本章节就不重复叙述,由于要增加新的存储设备,对 于新设备上安装分布式文件系统是否继续选用 S2DFS还是HDFS,我们需要回答以下几个问题:
第一,预算增加及扩展问题:要部署HDFS,还得单独 购买两台高性能设备作为HDFS的元数据库服 务器(注:两台设备,构成主备;配置不能比我 们现在选择的设备配置差,不然就会成为瓶颈, 如果差了,数据 节点就扩展不了几台)
第二,学****成本及进度问题:要使用HDFS,必须熟 悉它的API,以及后面带来的整个HDFS集群 部署维护等工作,这个与可利用的团队资源相 冲 突;S2DFS提供标准的POSIX协议接口,应用 程序代码不需作任何改变就可以执行。如果采用 HDFS,为了保证应用系统的透明,那么统一接 口的底层必须要写两种代码,第一是对面S2DFS, 第二是面 对HDFSo新增加了开发、维护、测试 的时间。
第三,空间浪费及孤岛问题:S2DFS与HDFS是两套 不同体系的文件系统,他们之间设备及存储空间 是不能共用的,后面增加的
6台,设备存储与前面 部署的10台设备通过对原始数据处理压缩后,存 储空间还有多余。二者构成了孤岛,同时造成空间 浪费。
第四,应用场景问题:HDFS对存储网页等文件比较友 好,毕竟它的基因就是为互联网搜索而开发出来 的。

数据模型主要主企业数据模型与投资商数据模型两个 部分。

字段名
备注
name
公司名称
econ_kind
企业类型
regist_capi
注册资本
scope
经营范围
term_start
营业开始日期
term_end
营业结束日期
belon