文档介绍:基于实体属性抽取的植物问答系统的研究
摘要:随着互联网的不断发展,信息抽取技术也在不断革新与进步,将植物描述信息结构化,对于植物分类学和植物标本的采集鉴定等进一步的深入研究具有重要意义。文章结合实体属性抽取技术,构建了植物信息于种子植物的相关专业知识,确定了种子植物的基础性状及其属性取值的范围,构建了植物属性特征词典,进一步提高了植物实体属性信息抽取的准确性。考虑到中文的特性,尤其许多植物的专有名词难以被计算机区分,为节省时间成本,对于植物信息描述,本文使用中文分词软件Jieba进行分词处理和词性标注预处理。由于植物专业术语的特殊性,为保证准确率,在分词前会将上述自主构建的植物属性特征词典导入该软件。此外,对于可能出现的嵌套词等计算机无法识别的部分则进行手工处理。通过分析与标注,得到预处理的语料。
。本文采用基于规则的方法进行实体属性与关系的抽取。并且使用RDF模型表示被识别和抽取的信息。RDF表达式的基本结构是三元组,每个三元组由一个主体、一个谓词和一个客体组成。首先,定义属性规则集,包括通用规则和专用规则,进行植物属性抽取。通用规则,即针对具有共性的描述形式定义的提取规则。在《中国植物志》中,种子植物的信息描述大部分具有规律性和一致性。如:植物描述一般都是从生长****性、根、茎、叶、花、果实描述到物候学特征,对于较复杂的器官结构,则依其构成进一步展开;描述文本的句子通常以表示植物结构的名词词组(先导词)开头;一些属性具有内部特征,如颜色的标志为“色”,形状的标志为“状”“形”等;标点符号起一定作用,如“、”表示某一属性的属性值并列,“;”表示叶片与叶柄的分离,“。”表示根与叶的分离等。专用规则,即针对不同植物具有特性的描述形式定义的规则。譬如,在有些植物描述花的语句中出现“植物结构”+“数量”的形式,抽取时需合理设定语序。基于通用规则和专用规则,定义属性规则集,用正则匹配的方式抽取出植物的属性,包括生长类型、颜色、形状、形态、质地、毛被、花期、果期、长度、宽度、高度、胸径等。在表示植物属性的RDF模型中,三元组的主体是实体,谓词是属性,客体是属性值,譬如“油杉”“高度”“30m”。其次,定义关系规则集,进行植物关系抽取。由于数据的限制,本文从中只抽取到了3种关系:地域关系、异名关系、变种关系。地域关系可表示为一个植物实体与多个地域的关系,也可表示为多个植物实体与一个地域的关系。异名关系和变种关系也是如此。在表示植物关系的RDF模型中,三元组的主体是实体,谓词是关系,客体是实体,譬如“油杉”“产于”“浙江南部、福建、广东、广西南部”。最后,通过数据库实现RDF模型的实际存储就完成了植物知识库的构建。
三、植物问答系统的实现
植物问答系统的实现包括三个部分:用户输入、调用问答模块、答案输出。其中,问答模块的构建是核心。本文基于自主构建的结构化植物知识库,并且参照相关问答系统[3],确定本系统的问答模块分为四个部分,包括问题分类、问题分析、三元组语义槽提取、答案生成。
。对于用户输入的问题,确定是属性问题还是关系问题。譬如,问题“油杉有多高?”是属性问题,问题“油杉产自哪里?”是关系问题。
。对问题进行分析,确定句子中的实体、属性或关系。譬如,问题“