1 / 6
文档名称:

从web文档中构造半结构化信息的抽取器.pdf

格式:pdf   大小:807KB   页数:6页
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

从web文档中构造半结构化信息的抽取器.pdf

上传人:zhufutaobao 2021/11/8 文件大小:807 KB

下载得到文件列表

从web文档中构造半结构化信息的抽取器.pdf

相关文档

文档介绍

文档介绍:2
2
Ξ
2 2
2
ISSN 1000 9825   Journal of Softw are 软 件 学 报 2000, 11 (1): 73~ 78
从W EB 文档中构造半结构化信息的抽取器
黄豫清 戚广志 张福炎
(南京大学多媒体计算机研究所 南京 210093)
2 2 2 2
Ξ
摘要 为了对W EB 上不规则的、动态的信息按照数据库的方式集成和查询, 采用对象交换模型 (object ex
change model, 简称O EM ) 建立了W EB 信息模型. 为了将页面中各个部分表示为对应的 O EM 对象, 设计了半
结构化信息的抽取算法, 并给出测试结果. 该方法可以抽取结构化和半结构化的信息, 比现有的抽取方法通用
性更强.
关键词 启发式规则, 数据抽取格式, 对象交换模型.
中图法分类号 T P311
WWW 是快速增长的巨大信息库, 含有大量有用的信息, 其信息存储为静态 H TM L 页面, 主要通过浏览器
来查看. 虽然我们可以利用现有的众多搜索引擎进行有效信息的查询, 但是查询结果往往是互不相关的 H TM L
页面, 要直接查询页面上精确的信息十分困难.
从数据库的观点看,WWW 上的大量资源包含半结构化的信息, 按照某种格式显示. 考虑 AAA I 会议资源,
它提供了分段的会议论文, 包括作者、论文名称等信息. AAA I 1997 的页面如图 1 所示, AA