1 / 7
文档名称:

Spark效用感知的检查点缓存并行清理策略.pdf

格式:pdf   大小:945KB   页数:7页
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

Spark效用感知的检查点缓存并行清理策略.pdf

上传人:好用的文档 2022/5/19 文件大小:945 KB

下载得到文件列表

Spark效用感知的检查点缓存并行清理策略.pdf

文档介绍

文档介绍:计算机系统应用 ISSN 1003-3254, CODEN CSAOBN E-mail: ******@
Computer ts show
that in the multi-job execution environment based on fair scheduling, with the increase of the number of checkpoints, the
execution efficiency of the unoptimized program becomes worse. After using PCC strategy, the program execution time,
power consumption and GC time can be reduced by %, % and %, respectively. Effectively improve the
efficiency of multi-checkpoint program execution.
Key words: cache cleaning; Spark; utility entropy; failure checkpoint; parallel cleaning; big data
Spark是主流基于内存的大数据计算框架,因其低 系统正在迁移到Spark平台上,利用并行计算和内存
延时,高性能,生态丰富被广泛使用⑴传统的机器学**** 迭代等特点提升训练效率,优化Spark框架执行效能
①基金项目:河南省科技研发项目(2**********)
收稿时间:2021-06-23;修改时间:2021-07-14;采用时间:2021-08-10; csa在线出版时间:2022-03-22
Software Technique*Algorithm 软件技术•算法 253计算机系统应用 -s- 2022年第31卷第4期
可以节约用电成本,降低碳排放[2-4].基于内存迭代计 点是该策略无法感知分区数据是否使用完毕,未使用
算不具有稳定性,易发生数据丢失,在多次迭代计算中, [10]提出考虑任
RDD数据丢失会导致高度冗余计算,Spark引入检查 务的Locality Level因素综合计算代价、分区大小、
点机制避免因内存数据丢失导致的重复计算问题.