文档介绍:万方数据
Wikipedia韩先培,赵军中文信息学报引言海量的信息以非结构化文本的方式存在Ⅲ,其中大部分信息仅能为人所阅读及理解。与此同时,信息社会需要大量机器可直接处理的数据和信息。结构化数据也就成为了一个重要的课题。语义元数据提供数据的语义信息,在将仅仅为人所能阅读信息转换为机器可处理的信息中,起着极为重要的作用。这也使得近年来给数据赋予其语义信息的工作,即语义元数据生成,又叫语义标注,得到了越来不幸的是,手工创建语义元数据需要花费大量10030077(2009)Ol0108-07泄蒲г鹤远J绞侗鸸抑氐闶笛槭冶本摘要:语义元数据提供数据的语义信息,在数据的理解、管理、发现和交换中起着极为重要的作用。随着互联网上数据爆炸式的增长,对自动元数据生成技术的需求也就变得更加迫切。获得目标语义元数据及得到足够的训练语料是使用自动生成技术的两个基本问题。由于获得目标语义元数据需要专家知识,而获得足够的训练语料需要GenerationA因此,如何将非结构化的数据转换成机器可处理的越多研究人员的关注。作者简介:韩先培,男,博士生,主要研究方向为自然语言处理和信息抽取;赵军,男,研究员.博士生导师,主要研究方向为自然语言处理、信息抽取和知识工程。23220093Mar2009Wikipedia问题:通过分析一个类中条目的目录表猚来抽取目标语义元数据,通过对分析文档结构和赋予目标结构正确的语义元数据来构建训练语料库。实验结果表明,该文的方法能够有效地解决这两个问题,为进一步的大规模的语义元数据应用系统打下了坚实的基础。关键词:计算机应用;中文信息处理;元数据;语义元数据;数据处理;语料库构建;语义标注TP391AXianpeiZHA0SciencesBeijingWikipediaextracting疭收稿日期:——定稿日期:—一(60673042)863(2006AA012144)(4073043)琋琁,,:metadatawhichdataplays,searchThe瑆problemsbecomestimeTheworkandaccordinglythey.paperwemetadataTheeffectivelywordscomputer籆;,,,.’
万方数据
[4]及其增长速度,通过手工来完成这个工作也就变得不可能。因此,在语义元数据的创建过程中,需要研究自动语义标注的技术。机器学****领域的发展,给计算机提供了强有力的工具来自动完成语义元数据生成工作。通常,在使用机器学****技术来构建自动元数据生成系统时,需要关注以下的几个问题:123机器学****技术为我们提供了解决第二个问题的模型。但是,确定抽取的目标语义元数据需要就使得这两个问题在构建一个自动语义元数据生Wikipedia(b开提供,这就给我们提供了解决这两个问题的一种新的方法:从这些数据中抽取我们需要的知识Wikipedia解决自动语义元数据生成中的第一个和第三个问题,并展示了在这个过程中需要的问题和相关的技术。我们通过如下的两个阶段来依次解决第一个和第三个问题:谝唤锥危和ü治鯳中一个类别(table-of-contents)的目标语义元数据的集合,同时使用了一个结构推理算法来分析这些语义元数据的结构关系;本文的剩余部分安排如下:在第二节中,我们简要地回顾了语义元数据生成的相关工作;在第三节中