1 / 14
文档名称:

垂直知识图谱的构建与应用研究.doc

格式:doc   大小:72KB   页数:14页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

垂直知识图谱的构建与应用研究.doc

上传人:小雄 2020/5/25 文件大小:72 KB

下载得到文件列表

垂直知识图谱的构建与应用研究.doc

文档介绍

文档介绍:垂直知识图谱的构建与应用研究摘要:[目的/意义]近年来,知识图谱技术受到学术界和工业界的普遍关注。提出数据驱动的增量式知识图谱构建方法,为构建垂直知识图谱提供一种新思路。同时,通过3个用例研究提供垂直知识图谱的应用示范。[方法/过程]首先给出知识图谱的形式化定义,然后提出数据驱动的增量式知识图谱构建方法,重点研究构建垂直知识图谱数据图的细节与难点。基于该方法,本文构建了中医药知识图谱、海洋知识图谱和企业知识图谱。[结果/结论]以上垂直知识图谱的构建证实了本方法的可行性,它们各自的垂直应用体现了知识图谱的广泛应用。关键词:知识获取知识融合语义搜索辅助开方关系发现分类号:TP3911引言自从语义网络的概念提出以来,大量的链接开放数据(LinkedOpenData,简称LOD)和用户生成内容(User-generatedContent,简称UGC)发布在互联网中,互联网从仅包含网页与网页之间超链接的文档万维网逐步转变为包含大量描述实体和实体之间丰富关系的数据万维网。在此背景下,为改善搜索引擎效果,谷歌公司于2012年提出“知识图谱”的概念[1]:一种描述真实世界客观存在的实体、概念及它们之间的关联关系的语义网络。基于知识图谱的应用领域,本文将知识图谱分为通用知识图谱和垂直知识图谱(或行业知识图谱)。通用知识图谱不面向特定领域,可将其类比为“结构化的百科知识二这类知识图谱包含了大量常识性知识,强调知识的广度。具有代表性的大规模通用知识图谱有YAG0[2]、DBpedia[3]>Freebase[4]、NELL[5]等,[6]和SSC0[7]o垂直知识图谱则面向特定领域,基于行业数据构建,强调知识的深度。垂直知识图谱可以看作基于语义技术的行业知识库,其潜在使用者是行业的专业人员。在通用知识图谱的构建方面,已有相对成熟的技术和知识图谱产品,例如各大搜索引擎公司发布的谷歌知识图谱、百度“知心”、搜狗“知立方”等商用知识图谱。而在垂直知识图谱的构建方面,现有垂直知识图谱常采用手工构建方式,缺乏一套统一的垂直知识图谱构建方法。基于此,本文面向垂直知识图谱,首先对其进行形式化定义,然后提出数据驱动的增量式知识图谱构建方法:从多种类型的数据源出发,研究知识获取、融合过程中的细节与难点。最后,本文利用所提出的知识图谱构建方法构建了中医药知识图谱、海洋知识图谱和企业知识图谱,并对各自的垂直应用加以阐述,证实了本文方法的可行性和垂直知识图谱的广泛应用性。2知识图谱的形式化定义通用知识图谱与垂直知识图谱的本质并无区别,因此本文对两类知识图谱统一地进行定义。如图1所示,知识图谱G由模式图Gs、数据图Gd及二者之间的关系R组成,即G二。模式图Gs=,其中Ns表示类结点的集合,Es表示属性边的集合。模式图Gs中的类(结点)即为知识图谱中的概念,而属性(边)则对应概念之间的语义关系,包括rdfs:subClassOf、rdfs:equivalentclass这类来自语义网络现有标准RDFS[8]的属性和employer等用户自定义的属性。与此类似,数据图Gd二中的结点集包含实例结点和字符串结点,边集合Ed中的边连接两个结点表示一条三元组事实,如。此处,实例即实体,表示计算机可识别的客观世界对象,而字符串常作为实例的某一属性值。模式图Gs和数据图Gd之间的关系R由rdf:type构成,表示数据图中的实例与所属概念之间的关系。知识图谱具有多方面技术优势:首先,知识图谱易于修改数据模式,具有良好的动态可扩充性。在构建知识图谱时可以利用该特性进行增量式的数据模式设计。其次,知识图谱的语义互操作特性和“链接数据”原则,使得不同来源的数据集成更为方便。此外,知识图谱支持RDFS、0WL[9]、SPARQL[10]等现有标准,可以逐渐要求内容供应商提供支持。最后,知识图谱显式地表达实体之间的关系,可用于开发语义检索、自动问答等应用。3相关工作在知识图谱的构建方面,己经积累了大量通用知识图谱构建的工作。早期主要通过人工构建的方式,[11]>ResearchCyc[12]等通用知识图谱。此后,大量知识图谱基于维基百科进行构建,如YAG0、DBpedia等。但由于抽取的目标数据不同,它们的知识丰富度各有差异[13]。其中,DBpedia抽取了维基百科中信息框中的所有信息和统计信息;而YAG0仅从维基百科中抽取其自定义的属性,进行数据整合,因而准确率更高,但知识丰富度低于DBpediao不同于上述工具,,除了使用中文维基百科,还额外使用互动百科和百度百科这两个非常流行的中文百科站点。近年来,基于开放域知识抽取的知识图谱构建项目受到关注,如KnowItAll[14].NELLo它们使用增量迭代的方法从大