1 / 7
文档名称:

dbpedia学习笔记.pdf

格式:pdf   大小:758KB   页数:7页
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

dbpedia学习笔记.pdf

上传人:慢慢老师 2022/3/18 文件大小:758 KB

下载得到文件列表

dbpedia学习笔记.pdf

相关文档

文档介绍

文档介绍:DBpedia 学****笔记
By Nancy Liu

一. 有待提高,基于映射的信息框抽取被
提出。
它完成了将一个 Infobox 对应到一个 DBpedia 的本体(ontology)中。其中 Infobox 的属性对应了ontology 的属性。
比如一个映射如下:

上面的映射的例子中,将 infobox 的时间对应到了开始时间和结束时间,将 infobox 中的 engine
对应到了排放量和功率两个值,这样就可以更加准确、具有语义的将 Infobox 的信息映射出来。
得到了新的 RDF 节点如下:

DBpedia 的基于映射抽取器为了实现映射的准确性和实时性,允许用户新建和编辑,和
Wikipedia 的开发性相“映射”。
DBpedia 同时提供了三个工具,分别是映射检验器、抽取测试器、映射工具,供用户使用。

5. URI 模式
对于每一个 Wikipedia 中的文章,将会有一些 URI 与之对应。
在 DBpedia 中主要有三个命名空间:/:与 Wikipedia 中的网页一一对应。
/:与 infobox 中的属性一一对应。
/:与 dbpedia 中的本体一一对应。
对于基于映射的抽取器,它可以通过编辑适应多国语言,所以 dbpedia 有两种数据集——本
体数据集和标准数据集。这里的本地不是指存放在本体,而是指所在地,即用当地语言描述
的东西。对于本地集,命名空间的 URI 前缀变化为:http://<lang>./.
6. 自然语言处理抽取
DBpedia 提供了关于自然语言处理的数据集,目前有四个:话题标签(topic signatures),文法
类别(grammatical gender), 词汇(lexicalization),和主题概念(thematic concept)。
a) Lexicalization: 这是