1 / 21
文档名称:

CN110769050A-数据处理方法、数据处理系统、计算机设备及存储介质.docx

格式:docx   大小:131KB   页数:21页
下载后只包含 1 个 DOCX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

CN110769050A-数据处理方法、数据处理系统、计算机设备及存储介质.docx

上传人:sssmppp 2022/6/14 文件大小:131 KB

下载得到文件列表

CN110769050A-数据处理方法、数据处理系统、计算机设备及存储介质.docx

文档介绍

文档介绍:(19)中华人民共和国国家知识产权局
(12)发明专利申请
(10)申请公布号 CN 110769050 A
(43)
权利要求书2页说明书12页附图4页
申请号 20191099至少一条程序代码,所述程序代码由所述一个 或多个处理器加载并执行以实现如权利要求1至权利要求7任一项所述的数据处理方法中 任一计算节点所执行的操作。
10-种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有至少一 条程序代码,所述程序代码由处理器加载并执行以实现如权利要求1至权利要求7任一项所 述的数据处理方法中任一计算节点所执行的操作。
数据处理方法、数据处理系统、计算机设备及存储介质
技术领域
[0001] 本申请涉及图计算技术领域,特别涉及一种数据处理方法、数据处理系统、计算机
设备及存储介质。
背景技术
[0002] 图数据的编解码对图计算具有重要作用。一般而言,在常用的图数据处理过程中,
图数据的编码和解码的流程通常为先进行图数据的顶点ID(Identity,编号)进行编码,随 后执行具体业务场景下的图算法,最后将输出的数据进行解码。编解码具体是将图数据的 顶点ID转换为与顶点数量相关的数据表示,以缩小顶点ID对应的数值范围,从而提高算法 执行效率。
[0003] 然而,图数据处理过程中的编解码,主要存在以下缺点:在大规模图场景下,由于 需要较多的计算资源,而各个计算资源在进行编码时通常是单一计算资源进行,在解码过 程中就需要各个计算资源之间进行通信,以获知各个编码后的顶点ID所对应的原始顶点 ID,造成计算资源之间的通信量较为庞大,最终导致算法执行效率偏低。
发明内容
[0004] 本申请实施例提供了一种数据处理方法、数据处理系统、计算机设备及存储介质,
可以降低整体的通信量,提高计算效率。所述技术方案如下:
[0005] 一方面,提供了一种数据处理方法,应用于数据处理系统中,所述数据处理系统包 括多个计算节点,所述方法包括:
[0006] 所述多个计算节点读取图数据;
[0007] 所述多个计算节点分别确定计算节点所存储的图数据的顶点ID;
[0008] 所述多个计算节点分别通过数据交互获取其他计算节点所存储的顶点ID;
[0009] 所述多个计算节点将获取到的每个顶点ID存储为数组中一个数组条目,将所述每
个顶点ID映射至对应数组条目的标号;
[0010] 所述多个计算节点基于所述数组进行图数据计算;
[0011] 所述多个计算节点基于所述数组中数组条目以及数据条目的标号对图数据计算
结果进行解码。
[0012] 一方面,提供了一种数据处理系统,所述数据处理系统包括多个计算节点,
[0013] 各个所述计算节点用于读取图数据,分别确定计算节点所存储的图数据的顶点
ID,分别通过数据交互获取其他计算节点所存储的顶点ID,将获取到的每个顶点ID存储为 数组中一个数组条目,将所述每个顶点ID映射至对应数组条目的标号;基于所述数组进行 图数据计算;基于所述数组中数组条目以及数据条目的标号对图数据计算结果进行解码。 [0014] 在一种可能实现方式中,对于任一计算节点,所述计算节点枚举所述计算节点内
存储的顶点ID,当所述计算节点内存储的第一顶点ID已经存储于第一哈希表时,则忽略所 述第一顶点ID,当所述计算节点内存储的第一顶点ID未存储于所述第一哈希表时,则将所 述第一顶点ID存储至所述第一哈希表。
[0015] 在一种可能实现方式中,对于任一计算节点,所述计算节点枚举所述计算节点内 存储的顶点ID,确定所述计算节点内存储的第一顶点ID所属的计算节点,将所述第一顶点 ID发送至所属的计算节点;
[0016] 所述计算节点将属于所述计算节点的顶点ID发送至所述数据处理系统中的其他
计算节点。
[0017] 在一种可能实现方式中,所述计算节点通过MPI点对点通信接口,将所述第一顶点 ID发送至所属的计算节点。
[0018] 在一种可能实现方式中,所述计算节点MPI集合通信接口,将属于所述计算节点的 顶点ID发送至所述数据处理系统中的其他计算节点
[0019] 在一种可能实现方式中,所述计算节点还用于将所述已存储的顶点ID和所述数组 的数组条目的标号之间的对应关系存储至第二哈希表;所述多个计算节点基于数组进行图 数据计算之后,所述方法还包括:销毁所述第二哈希表。
[0020] 在一种可能实现方式中,所述多个计算节点分别根据所述数组中各个编码后的顶 点ID以及所述各个编码后的顶点ID的数组中数组条目的标号之间的映射关系,将所述图数 据计算结果中的顶点ID映射为对应的数组条目的标号。
[0021] 一方面,提供了一