1 / 5
文档名称:

标准内容抽取方法研究.doc

格式:doc   大小:50KB   页数:5
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

标准内容抽取方法研究.doc

上传人:xcweywk961 2016/9/6 文件大小:50 KB

下载得到文件列表

标准内容抽取方法研究.doc

相关文档

文档介绍

文档介绍:标准内容抽取方法研究摘要: 标准是为了规范行业秩序, 经协商一致制定并由公认机构批准的一种文件。由于标准种类繁多, 且以电子文档形式存在, 因此标准编制单位在编制新标准时需要手工查找大量相关内容, 费时费力。为了提高标准编制效率, 本文通过研究国标规定的标准编写的结构和规范, 提出一种从半结构化标准中抽取信息的方法。关键词:标准;信息抽取 1 引言在信息化建设中, 标准的制定和执行起到举足轻重的作用。目前我国已经发布了多项标准, 未来计划和新增的标准也会越来越多。信息化标准具有较高的复杂性和相关性, 标准编写人员需要全面了解现存标准的相关细节才能确保新编写的标准与现存标准一致。然而现存标准内容繁多,且大都以文档形式存在, 标准编写人员手工查阅新旧标准是否一致是一个费时费力的工作。为了解决这个问题, 本文研究了从一系列多样化标准中粗略抽取信息的方法, 并将抽取结果存于数据库中, 从而为标准编写人员提供相关内容的查询和检索帮助,以提高标准的编制效率。 2 标准抽取的总体方法“标准化工作导则第1 部分: 标准的结构和编写”( 以下简称“国标”) 是中华人民共和国国家质量监督检验检疫总局和中国国家标准化管理委员会发布的国家标准。国标规定了全国各行各业的标准应该具有的结构以及编写规范, 是编写新标准时应遵守的基础标准。本文研究的标准符合国标的规定。国标规定了标准的结构: 标准必须包含封面、前言和正文, 可以包含引言、附录、参考文献和索引,附录可以有多个。国标还规定了标准各部分的编排:标准各部分都要从新的一页起排, 若有多个附录,每个附录都应另起一页。国标还规定了标准各部分的格式: 封面是标准的第一页, 封面上各项信息都有确定位置; 正文部分首页首行是标准名称; 每个附录部分的首页首行是该附录的编号, 例如:“附录 A”、“附录 B”等; 其余部分的首页首行与这个部分的名称相同, 例如目次部分首页首行是“目次”二字, 前言部分首页首行是“前言”二字。由于国标规定的标准各部分各有特点, 且界限清晰, 因此本文抽取时先对标准切分得到各部分,再对各部分分别抽取。 3 标准分块标准分块时需要知道各部分的开始和结束位置。由于国标规定标准的各部分都要从新一页起排, 因此只要知道各部分的开始和结束页码就能确定各部分的范围。 4 标准抽取 各部分抽取介绍经过分块后就可以对各部分内容分别抽取。对于封面, 国标规定了标准的封面必须包含的内容,以及它们的相对位置,因此利用 Word 的定位功能和字符串匹配方法就可以得到。前言常常说明了标准的起草单位和起草人,并且常用“本标准起草单位: ……”,“本标准主要起草人: ……”等句型描述,因此通过模式匹配方法构造模式就可以得到前言包含的信息。引言、参考文献和索引是可选要素, 本文将这三部分内容直接存储。正文和附录是一篇标准的核心部分, 也是标准抽取时重点关注的部分, 本文以正文为例,说明这部分内容如何抽取。 正文抽取国标规定标准的正文具有章、条、段、列项这样的层次划分。章是正文内容划分的基本单元, 从数字 1 开始编号。条是章的细分, 用点分阿拉伯数字编号, 第一层次的条( 例如 ) 可分为第二层次的条( 例如 、 等)。段是章或条的细分, 不编号。列项由一段后跟冒号的文字引出, 且隶属于该段