文档介绍：基于GRU神经网络的中文分词法
李雪莲,段鸿*,许牧
(厦门大学软件学院,福建厦门 361005)
摘要:中文分词是中文自然语言处理的基础。目前,学术界主流的中文分词法是基于字符序列标注的传统机器学****方法,该方法存在需要人工定义特征、特征稀疏等问题。随着深度学****的研究和应用的兴起,研究者提出了将LSTM(Long Short-Term Memory)神经网络应用于中文分词任务的方法,该方法可以自动学****特征,并有效建模长距离依赖信息,但是该模型较为复杂,存在模型训练和预测时间长的缺陷。针对该问题,本文提出了基于GRU(Gated Recurrent Unit)神经网络的中文分词法,该方法继承了LSTM模型可自动学****特征,有效建模长距离依赖信息的优点,具有与基于LSTM神经网络中文分词法相当的性能,并在速度上有显著提升。
关键字:自然语言处理;中文分词;门循环单元;字嵌入;循环神经网络
中图分类号: 文献标志码: A
在中文中,标点符号只是对句和段进行划分,而对于词语并没有明显的分割符号,这与英文单词以空格划分存在显著差别。因此,中文自然语言处理的第一步就是将一个中文字符序列划分成词语的集合,即中文分词。中文分词是对中文进一步分析处理的基础,如词性标注、机器翻译、中文词搜索等。中文分词的效果,直接影响了进一步的分析结果。因此,中文分词任务具有重要意义。然而,由于中文中存在一字多意、一词多意、不同的语境下同一个句子存在不同分词方式等问题,中文分词一直是中文自然语言处理任务中的难点。
中文分词问题从提出到现在,常用的方法可以分为以下四类:1、基于字符串匹配的分词方法,又称为机械分词法[1][2][3];2、基于语义分析的分词方法[4];3、基于统计学****的分词方法[4][6];4、基于神经网络的分词方法[7][8]。基于字符串的分词存在着词典不全收稿日期:2016-10-30 录用日期:2017-01-15
*通信作者:******@xmu.
,对于歧义和未登陆词处理效果不佳等问题。而基于语义分析的分词方法由于中文的复杂性,目前还不成熟。基于统计学****的分词则需要人工定义和提取特征,存在特征稀疏,模型复杂,容易过拟合的问题。由于神经网络可以自动学****特征,避免了传统特征工程,近年来逐渐被应用到自然语言处理之中。2003年,文献[9]提出了一种基于神经网络变种的概率语言模型。2011年,文献[10]将神经网络应用到了自然语言处理中。2013年,文献[7]开始采用神经网络解决中文分词问题。2015年,文献[8]提出了使用LSTM神经网络解决中文分词问题的方法,克服了传统神经网络不能学****长距离依赖关系的问题,取得了很好的分词效果。然而,由于LSTM神经网络模型较为复杂,存在训练和预测时间长的问题。为解决这个问题,本文提出了基于GRU神经网络的中文分词方法。GRU模型由文献[11]提出,GRU模型和LSTM模型均为循环神经网络(Recurrent work,RNN)模型的扩展,但是相对于LSTM模型,GRU模型将门控制单元从三个减少到了两个,模型更加简单,具有更高的效率
。文献[12]对比了GRU和LSTM模型,发现GRU模型在多个问题上都能取得与LSTM模型相当的结果,并且更易于训练,因此,GRU模型被越来越多地应用于自然语言处理任务中。