1 / 2
文档名称:

一种基于自然语言处理的环境科学命名实体识别方法.docx

格式:docx   大小:12KB   页数:2页
下载后只包含 1 个 DOCX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

一种基于自然语言处理的环境科学命名实体识别方法.docx

上传人:凹凸漫 2021/12/23 文件大小:12 KB

下载得到文件列表

一种基于自然语言处理的环境科学命名实体识别方法.docx

相关文档

文档介绍

文档介绍:一种基于自然语言处理的环境科学命名实体识别方法
摘要:提出一种基于自然语言处理模型的环境科学命名实体识别方法,该方法以自然语言处理模型为核心,在通用分词库的根底上参加环保专业分词库和外部特征识别技术,实现了从环评文件中自动提取准确的环境科学命名实体信息;同时采用MCTS蒙特卡洛树构建搜索引擎,提高了命名实体识别过程的搜索效率。
关键词:自然语言处理命名实体识别信息提取环境影响评价
中图分类号:TP312文献标识码:A文章编号:1674-098X〔2021〕07〔c〕-0120-02
目前,在环保行业中,环境影响评价文件的数量日趋庞大,资料集成度越来越高,随着互联网和信息技术的开展,信息化管理技术已在各层次各系统广泛应用【1】。
然而,环评工程的资料中包含多项指标〔如总投资、建设性质、行业等〕,也无法实现自动提取和统计汇总,环评工程的各种数据信息无法实现电子化,不能得到及时有效的利用。环境统计工作量大、耗时长,单纯地依靠人工完成,准确性难以保证。为减轻环评工作人员的劳动强度,提高工作效率,实施电子文件归档和管理制度,设计了一种基于自然语言处理的环境科学命名实体识别方法,实现环评信息的智能抽取。
1理论根底

环境影响评价是指对规划和建设工程实施后可能造成的环境影响进行分析、预测和评估,提出预防或者减轻不良环境影响的对策与措施,进行跟踪监测的方法与制度【2】。环境影响评价可以为开发建设活动的决策提供科学依据,为经济建设的合理布局提供科学依据,为确定某一地区的经济开展方向和规模、制定区域经济开展规划及相应环保规划提供科学依据,为制定环境保护对策和进行科学的环境管理提供依据,促进相关环境科学技术的开展。

自然语言处理〔NaturalLanguageProcessing,NLP〕就是利用计算机为工具对人类特有的书面形式和口头形式的自然语言的信息进行各种类型处理和加工的技术【3】。自然语言处理又称自然语言理解〔NaturalLanguageUnderstanding,NLU〕,是人工智能研究的重要内容之一,可以定义为研究在人与人交际中以及人与计算机交际中的语言问题的一门学科。

命名实体〔NE〕是指人们感兴趣的特定的专有名词〔如组织机构名〕和特定的数量词〔时间和数字〕。命名实体识别的任务被定义为识别出文本中出现的专有名称和有意义的数量短语并加以归类。中文NE的识别研究开始较晚,同英文实体识别相比,汉语NE的识别更难。汉语文本没有类似英文文本中空格之类的显示标示词边界的标识符,分词和命名实体相互影响,缺乏明显的特征标志;组织复杂,长短不一,没有规律;缩略短语很多;实体名相互嵌套;缺少大规模语料库。

条件随机场模型CRF由Lafferty等人于2021年提出,又称为马尔可夫随机域,是一种用于标注和切分有序数据的条件概率模型。从形式上来说CRF可以看作是一种无向图模型【4】,考察给定输入序列的标注序列的条件概率。
2基于NLP的环评信息提取方法

如图1所示,以自然语言处理引擎为核心,采用文档处理器对环评文件进行预处理,运用蒙特卡洛树搜索算法,结合外部特征识别器和环评专业分词库,从环评文件中提取目标信息。