文档介绍：GraphX 在图数据库 Nebula Graph 的图计算实践
       
 
 
 
 
 
 
 
     
     
     
 
 
 
不同来源的异构数据间存在着千丝万缕的关联，这种数据之间隐藏的关联关系和网络结构特性对于数据分析至关重要，图计算就是以图作为数据模型来表达问题并予以解决的过程。
图计算实践
一、背景
随着网络信息技术的飞速发展，数据逐渐向多源异构化方向发展，且不同来源的异构数据之间也存在的千丝万缕的关联，这种数据之间隐藏的关联关系和网络结构特性对于数据分析至关重要。但传统关系型数据库在分析大规模数据关联特性时存在性能缺陷、表达有限等问题，因此有着更强大表达能力的图数据受到业界极大重视，图计算就是以图作为数据模型来表达问题并予以解决的过程。图可以融合多源多类型的数据，除了可以展示数据静态基础特性之外，还可通过图计算展示隐藏在数据之间的图结构特性和点对关联关系，成为社交网络、推荐系统、知识图谱、金融风控、网络安全、文本检索等领域重要的分析手段。
二、算法应用
为了支撑大规模图计算的业务需求， Nebula Graph 基于 GraphX 提供了 PageRank 和 Louvain 社区发现的图计算算法，允许用户通过提交 Spark 任务的形式执行算法应用。此外，用户也可以通过 Spark Connector 编写 Spark 程序调用 GraphX 自带的其他图算法，如 LabelPropagation、ConnectedComponent 等。
PageRank
PageRank 是谷歌提出的用于解决链接分析中网页排名问题的算法，目的是为了对互联网中数以亿计的网页进行排名。
PageRank 简介
美国斯坦福大学的 Larry Page 和 Sergey Brin 在研究网页排序问题时采用学术界评判论文重要性的方法，即看论文的引用量以及引用该论文的论文质量，对应于网页的重要性有两个假设：
数量假设：如果一个网页 A 被很多其他网页链接到，则该网页比较重要；
质量假设：如果一个很重要的网页链接到网页 A，则该网页的重要性会被提高。
并基于这两个假设提出 PageRank 算法。
PageRank 应用场景
社交应用的相似度内容推荐
在对微博、微信等社交平台进行社交网络分析时，可以基于 PageRank 算法根据用户通常浏览的信息以及停留时间实现基于用户的相似度的内容推荐；
分析用户社交影响力
在社交网络分析时根据用户的 PageRank 值进行用户影响力分析；
文献重要性研究
根据文献的 PageRank 值评判该文献的质量，PageRank 算法就是基于评判文献质量的想法来实现设计。
此外 PageRank 在数据分析和挖掘中也有很多的应用。
算法思路
GraphX 的 PageRank 算法是基于 Pregel 计算模型的，该算法流程包括 3 步骤：
为图中每个节点（网页）设置一个同样的初始 PageRank 值；
第一次迭代：沿边发送消息，每个节点收到所有关联边上对点的信息，得到一个新的 PageRank 值；
第二次迭代：用这组新的 PageRank 按不同算法模式对应的公式形成节点自己新的 PageRa