文档介绍:第卷第期计算机技术与发展. .
年月、. .
基于文本挖掘的本体自动构建系统架构解析
薛中玉,李春梅,黄道雄
.北京中机科海科技发展有限公司,北京;
.机械工业仪器仪表综合技术经济研究所,北京
摘要:本体可以为人与计算机之间的沟通和交流提供语义支撑,在人工智能、知识工程等众多领域有着广泛的应用空
间,但现阶段本体主要采用人工构建方法,投入资源大、建设周期长,且质量无法保障,这些成为制约本体应用的主要瓶
颈。文中提出了一种基于文本挖掘的本体自动构建系统和方法,详细介绍了用户层、系统工具层和数据资源层中各模块
的功能和实现方法,具体分析了系统数据处理的整个流程。该系统和方法对于解决本体构建问题具有借鉴意义。
关键词:文本挖掘;本体构建;系统架构
中图分类号: 文献标识码: 文章编号:—一—
—,—。—
,
.,,;
.,,
:
, .,—
.。.
. ,
, ,
. ·
.
:;;
引言因此,本体在人工智能、知识工程、图书情报和搜索引
“本体”最初是哲学领域的术语,是关擎等众多领域都有广泛的应用空间。但是,目前真
于事物存在及其本质规律的学说⋯。世纪末,随着正投人使用的本体还很少。其主要原因在于现有本体
信息技术的发展,本体被引入人工智能、知识工程等领的构建是以人手工为主,利用和—
域,用于构建大型集成的知识库系统,解决知识概念表等常见本体工具,技术的应用实施还很困难,
示和知识组织体系方面的问题。在新的技术领域,本由于该项工作是一项非常复杂、庞大的系统工程,将相
体被赋予更为具体的定义——共享概念模型的、明确关领域的概念和关系进行梳理,并用规范化的模式进
的、形式化的规范说明,一般由概念、概行表达,需要领域专家花费大量时间和精力,并且期间
念间关系和规则构成。涉及了多位专家协作,如果专家间认识和理解不同时,
本体由其自身的特点,可以将人们广泛认可的各将会出现不一致的现象,需要逐一进行协调和确认,其
种类型知识转化为规范的、计算机可以理解的形式,为工作量相当之大。鉴于本体构建工程的复杂性和智力
“计算机与人之间正常沟通与交流”提供语义支撑。密集性等特点使得本体的构建往往投入资源大、建设
周期长,且质量无法保障,这些成为影响本体应用和推
收稿日期:—;修回日期:——
广的主要瓶颈和难点⋯。因此,解决本体构建阶段现
基金项目:国家国际科技合作计划项目
作者简介:薛中玉一,男,河南开封人,硕士,程师,从文本有技术和方法的瓶颈和难点成为业内人士主要研究方
挖掘、本体和信息检索研究。向之一。文中提出了一种基于文本挖掘的本体自动构
第期薛中玉等:基于文本挖掘的本体自动构建系统架构解析· ·
建技术,对解决本体构建问题具有很大的借鉴意义。知识挖掘,包括文本自动摘要、文本聚类、关联规则抽
取和语义关系挖掘等。由于知识挖掘得到的结果可能
文本挖掘不一致、不新颖、不符合构建本体基本要素的形式要
文本挖掘是指为了发现知识,从大求,因此需要对文本知识进行必要的后处理,包括知识
规模文本库中抽取隐含的、以前未知的、潜在有用的知的评价与取舍、知识的规范形式化表达等。
识包括概念、模式、