1 / 19
文档名称:

知识图谱概述及应用样稿.doc

格式:doc   大小:1,639KB   页数:19页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

知识图谱概述及应用样稿.doc

上传人:梅花书斋 2020/11/25 文件大小:1.60 MB

下载得到文件列表

知识图谱概述及应用样稿.doc

相关文档

文档介绍

文档介绍:导读:知识图谱 (Knowledge Graph) 是目前研究热点。自从谷歌推出自己第一版知识图谱以来,它在学术界和工业界掀起了一股热潮。各大互联网企业在以后短短十二个月内纷纷推出了自己知识图谱产品以作为回应。比如在中国,互联网巨头baidu和搜狗分别推出”知心“和”知立方”来改善其搜索质量。那么和这些传统互联网企业相比,对处于当今风口浪尖上行业 - 互联网金融, 知识图谱能够有哪方面应用呢?
目录:
1. 什么是知识图谱?
2. 知识图谱表示
3. 知识图谱存放
4. 应用
5. 挑战
6. 结语

知识图谱本质上是语义网络,是一个基于图数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在“实体”,每条边为实体和实体之间“关系”。知识图谱是关系最有效表示方法。通俗地讲,知识图谱就是把全部不一样种类信息(Heterogeneous Information)连接在一起而得到一个关系网络。知识图谱提供了从“关系”角度去分析问题能力。
知识图谱这个概念最早由谷歌提出,关键是用来优化现有搜索引擎。不一样于基于关键词搜索传统搜索引擎,知识图谱可用来愈加好地查询复杂关联信息,从语义层面了解用户意图,改善搜索质量。比如在谷歌搜索框里输入Bill Gates时候,搜索结果页面右侧还会出现Bill Gates相关信息比如出生年月,家庭情况等等。
另外,对于稍微复杂搜索语句比如 ”Who is the wife of Bill Gates“,谷歌能正确返回她妻子Melinda Gates。这就说明搜索引擎经过知识图谱真正了解了用户意图。
上面提到知识图谱全部是属于比较宽泛范围,在通用领域里处理搜索引擎优化和问答系统(Question-Answering)等方面问题。接下来我们看一下特定领域里 (Domain-Specific) 知识图谱表示方法和应用,这也是工业界比较关心话题。

假设我们用知识图谱来描述一个事实(Fact) - “张三是李四父亲”。这里实体是张三和李四,关系是“父亲”(is_father_of)。当然,张三和李四也可能会跟其它人存在着某种类型关系(临时不考虑)。当我们把电话号码也作为节点加入到知识图谱以后(电话号码也是实体),人和电话之间也能够定义一个关系叫 has_phone,就是说某个电话号码是属于某个人。下面图就展示了这两种不一样关系。
另外,我们能够把时间作为属性(Property)添加到 has_phone 关系里来表示开通电话号码时间。这种属性不仅能够加到关系里,还能够加到实体当中,当我们把全部这些信息作为关系或实体属性添加后,所得到图谱称之为属性图 (Property Graph)。属性图和传统RDF格式全部能够作为知识图谱表示和存放方法,但二者还是有区分,这将在后面章节做简单说明。

知识图谱是基于图数据结构,它存放方法关键有两种形式:RDF存放格式和图数据库(Graph Database)。至于它们有哪些区分,请参考【1】。下面曲线表示多种数据存放类型在最近几年发展情况。从这里我们能够显著地看到基于图存放方法在整个数据库存放领域飞速发展。这幅曲线图起源于
下面列表表示是现在比较流行基于图存放数据库排名。,而且在RDF领域里Jena还是现在为止最为流行存放框架。这部分数据起源于
当然,假如需要设计知识图谱很简单,而且查询也不会包含到1度以上关联查询,我们也能够选择用关系型数据存放格式来保留知识图谱。但对那些稍微复杂关系网络(现实生活中实体和关系普遍全部比较复杂),知识图谱优点还是很显著。首先,在关联查询效率上会比传统存放方法有显著提升。当我们包含到2,3度关联查询,基于知识图谱查询效率会高出几千倍甚至几百万倍。其次,基于图存放在设计上会很灵活,通常只需要局部改动即可。比如我们有一个新数据源,我们只需要在已经有图谱上插入就能够。于此相反,关系型存放方法灵活性方面比较差,它全部Schema全部是提前定义好,假如后续要改变,它代价是很高。最终,把实体和关系存放在图数据结构是一个符合整个小说逻辑最好方法。

在本文中,我们关键讨论知识图谱在互联网金融行业中应用。当然,很多应用场景和想法全部能够延伸到其它各行各业。这里提到应用场景只是冰山一角, 在很多其它应用上,知识图谱仍然能够发挥它潜在价值, 我们在后续文章中会继续讨论。
反欺诈
反欺诈是风控中很关键一道步骤。基于大数据反欺诈难点在于怎样把不一样起源数据(结构化,非结构)整合在一起,并构建反欺诈引擎,从而有效地