文档介绍:万方数据
画琊蚴岔癌幽承厨瑰缀园龙丽庞弘粲12司莎图书馆学刊20085D鲜Ψ洞笱Ь糜牍芾硌г海愣ü阒信息抽取是一种文本处理技术,其目的是根Web④使用模式匹配方法识别指定的信息模式的各个部⑤进行上下文分析和推理,确定信息的最终形式。Svste2080【摘要信息抽取旨在为人们提供获取网络知识单元的有力工具,以应对信息爆炸带来的严峻挑战。在回顾Webwebweb和应用研究进行了介绍,以期有助于本研究继续向前发展。【关键词信息抽取信息抽取技术信息抽取评价综述]G202Intemet取的主要平台,其上数据一直呈几何级数增长。目前%的网页属于隐藏网页死嗤呈怯珊筇ㄊ菘馍,而搜索引擎无法从此类网页中获取数据。但通过信息抽取就能将这些信息收集起来,用结构化形式储存。方便揭示和查询。成功的信息抽取系统将把互联网变成巨大的数据库,同时对于我们提高索引和搜索引擎的效率也具有研究意义。Web方面进行了综述,并重点分析了当前言息抽取系统的比较和评价。信息抽取1997Proteus程的创建者描述信息抽取的概念为“信息抽取涉及(如:数据库据预定义好的模板,从自然语言文本中抽取出特定的信息,并将其形成结构化的数据,然后填入一个数据库中供用户查询使用的过程。信息抽取不仅能帮助人们方便地找到所需信息,而且信息的内容经过合理的分析和组织后,人们可以有效地获取感兴趣的信息,并可在此基础上进一步进行数据挖掘、文本生成等后续信息处理。Web畔⒊槿【、关系数据、面向对象的数据等:整个抽取过程的工作过程主要包括了如下几个步骤:②用一组信息模式描述所需要抽取的信息。③对文本进行合理的词法、句法及语义分析。分。⑥将结果输出成结构化的描述形式以便由网络集成系统进行查询分析。WebWebr(Wrapper)器是一种软件过程,这个过程使用已经定义好的信息抽取规Web为用特定的格式描述的信息。一个包装器被认为是一个程序或是理解某一具体信息源的一种规则,并把信息转化为较为xML给定的网站。紧密地与抽取的网页结构和标记语言相联系的。包装器最具挑战性的方面就是能从许多不相关的文本中识别所要抽取的信息。从自然语言文本中获取结构化信息的研究始于世纪印年代中期,这被看作是信息抽取技术的初始研究。信息抽取技术最早是由甒凇禡末开始。信息抽取研究蓬勃开展起来,主要得益于消息理解(MUCMessageConference)MUC一个重要分支。并一直推动该领域的研究向前发展。Web121122No52008
万方数据
322ontolo啊》31997LMarlin图书馆学刊2008598I习形式——模式匹配。通过大量学习实例,归纳学习出待抽Web20WebWeb地解决信息抽取的自动化。目前最主要的问题仍是信息抽取系统的准确性和健壮性有待提高。和其他抽取技术相比,本体论的引入能对信息抽取的精度和召回率有显著的提高,但本体的构建仍有待深入研究。随着语义难该头⒄梗琖Web术会得到更好的发展。Web目前有两种主要的在网页上确定所需数据的方法:基于本体论的信息抽取和基于位置的信息抽取。311基于本体的信息抽取具备了一个适应性网络信息抽取系统应该具备的许多特征,基于本体的抽取工具使用领域知识来描述数据。包括关系、词频、上下文关键词。基于领域