1 / 2
文档名称:

提取命名实体的方法.docx

格式:docx   大小:17KB   页数:2页
下载后只包含 1 个 DOCX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

提取命名实体的方法.docx

上传人:421989820 2022/6/25 文件大小:17 KB

下载得到文件列表

提取命名实体的方法.docx

相关文档

文档介绍

文档介绍:提取命名实体的方法
专利名称:提取命名实体的方法
提取命名实体的方法
背景技术:
互联网的出现导致了像以前从来没有过的信息爆炸。每天有数千文档上载,网络已成为搜索信息的最喜欢的地方。命名实体(NE named entity)搜索是搜文集中出现的命名实体(NE),利用一些现有资源可以从其人工或自动形成种子实体集ロ O文档文集可以是电子文档的集合,例如但不限于网页的集合。可以从诸如电子数据库之类的储存库(repository)获得文档。电子数据库可以是内部数据库,例如公司的内部网或外部数据库例如Wikipedia。而且,电子数据库可以存储在独立的个人计算机上或遍布在多个计算机器上,利用有线或无线技术联网在一起。例如,电子数据库可以被托管(host)在通过广域网(WAN)或互联网而连接的多个服务器上。在实施例中,识别文集(例如内部网中的网页)中出现的所有可能的命名实体而不考虑其类型。该步骤识别简单和复杂的命名实体这二者。作为例示,可以识别简单实体,例如人名(“Jack Sparrow")和位置(“曼谷”)。也可以识别复杂命名实体,例如产品名称(“Compaq Presario 3434 with HP Printer 4565,,)和项目名称(“Entity ExtractionProject in ABC Department”),而不论其类型如何。在实施例中,可以使用一种基于排列(collocation)的方法(例如,D. Downey等人 在 Proc. of IJCAI, 2007 中的“Locating complex named entities in web text”所述的方法)来识别命名实体。不过,本实施例使用不同的方法判断命名实体的边界。它使用具有数字的项目(term)作为命名实体边界的标识符,并使用预定义的阈值来选择对称条件概率(SCP)高于阈值的候选者作为命名实体。在步骤120中,构造命名实体图以发现以上步骤110中识别的任何给定命名实体对之间的相同类型概率。在构造命名实体图以发现任何给定命名实体对之间的相同类型概率中涉及的方法步骤包括若干子步骤,如图2中所示。在实施例中,使用基于语言模型的图构造方法和基于simhash的方法来计算两个命名实体之间的条件概率并构造命名实体图,其对文档文集(例如,组织的网页)中命名实体之间的相同类型信息进行编码。下文描述这两种模型。基于语言模型的图构造
如所周知,图一般是点的集合,其中ー些点由链路(link)连接。点被称为顶点(或节点),并且连接一些顶点对的链路被称为边。边可以是有方向或无方向的。图构造时的主要问题之ー是计算每条边的权重,其对端节点与起始节点是相同类型的条件概率进行编码。在实施例中,提出了一种三阶段方法以计算边的权重并构造命名实体图(a)为每个命名实体(节点)创建语言模型,(b)基于KL-距离(KL-Divergence)计算条件概率,(c)利用所有命名实体来构造图。在第一阶段中,为每个命名实体创建语言模型(122)。这是通过针对每个命名实体检索包含该命名实体的文档来实现的。然后将检索到的文档与排名前列的文档中的围绕命名实体的片断组合成虚拟文档。为了例示,取命名实体“Jack Sparrow^还假设文档文集中对“Jack Sparrow”的实体搜索获得几百个文档。在本实施