文档名称：

基于改进深度学习算法的文本极性智能判断方法研究.doc

格式：doc 大小：19KB 页数：12页

下载后只包含 1 个 DOC 格式的文档，没有任何的图纸或源代码，查看文件列表

如果您已付费下载过本站文档，您可以点这里二次下载

预览

下载此文档

基于改进深度学习算法的文本极性智能判断方法研究.doc

上传人:qvuv398013 2022/5/16 文件大小：19 KB

下载得到文件列表

基于改进深度学习算法的文本极性智能判断方法研究.doc

相关文档

文档介绍

文档介绍：基于改进深度学****算法的文本极性智能判断方法研究
摘要: 为了解决传统的文本极性智能判断方法判断结果准确率和召回率普遍较低的问题,基于改进深度学****算法研究一种新的文本极性智能判断方法。在CNN结构基础上设计一种新的深度学****算着重要作用,将人机智能融入到文本极性智能判断中,可以大大提高判别算法的工作效率。在机器学****研究中,深度学****算法有着很大的发展空间,这种起源于人工神经网络的学****算法可以模拟人的大脑对事物进行分析、解释文本、辨别声音[3]。深度学****算法不需要监督,它可以在低层特征中不断组合,再根据高层特征和属性特征找到数据的分布特征,从而完成文本分层、预测、判断等工作[4]。
本文基于改进深度学****算法研究了一种文本极性智能判断方法,在卷积神经网络(CNN)的基础上进行优化,重新训练学****数据,采用隐式特征抽取的方式从训练数据中学****该判别方法可以达到细粒度标记水准,将被判别文本清晰明确地分成非常消极、消极、中性、积极、非常积极五个层次[5]。
本文设计的改进深度学****算法采用了局部权值共享的特殊结构,能够更好地处理语音文本和图像文本,在布局上与生物神经网络十分相似。多维向量输入使判断过程不需要重建数据,降低工作复杂度[6]。为了更好地检测所设计的文本极性智能判断方法的有效性,本文以微博热门话题作为样本数据进行实验,通过准确率、召回率的比较实验,对比改进模型与普通的CNN、RNN模型。 1 改进深度学****算法模型建立
结合已有的CNN、LSTM、多层CNN、Bi?LSTM?CRF等结构,建立了一种新型深度学****算法网络结构。该神经网络结构共包括输入层、输出层、采集层、连接层、卷积层五部分,改进神经网络结构图如图1所示。
改进神经网络中,每层之间的变换都涉及一次特征提取,提取后的层由多个二维平面组成,这些二维平面统称为特征映射图。在输入层中输入原始文本,多次提取原始文本数据。本文采用的计算方式为二次计算,即使输入的原始数据有很大的形变,二次计算也能够较好地计算出结果[7]。
改进神经网络结构中卷积层和子采样层都是独立工作的,卷积层工作过程如图2所示。
观察图2可知,卷积层会利用训练滤波器对输入的数据和文本进行卷积、偏置处理,从而得到卷积层[8]。卷积层将最初的输入文本编程为不同的网格,每个网格都记录着不同的特征数据,便于进行后续工作。
子采样过程如图3所示。
将邻域的4个像素汇集到一起求和,集合成一个像素后,进行加权处理和偏置处理,通过激活函数缩小特征映射图,缩小后的特征映射图可以被直接提取,耗费成本低[9]。
卷积运算和采样运算都能够强化文本特征,降低噪音。
连接层是以隐含状态存在的,能够连接上一层和下一层,在连接层中设置了权重向量和偏置向量,输入数据经过加权处理和偏置处理后得到一个新的数值,该数值最终会被传给sigmoid函数。
输出层具有分类功能,通过回归曲线计算输入文本属于各种类别的概率。
将本文建立的改进深度学****算法模型应用到文本极性智能判断中,选取文本中的小部分区域在神经网络最低层次中输入,依次滤波处理和加权处理,直至确定文本信息最显著的特征。为确保识别的一致性,每个映射上使用的权值都是相等的,随着逐层输出,网络参数会变得越来越少,最后会出现唯一的不变性特征[10]。文本也可以直接以网格方式输出,不需要重建数据,工作方式较为简单。
2 基于改进深度学****算法的文本极性智能判断方法
利用前文建立的深度学****算法改进模型对文本进行极性智能判断,分析文本中的情感词和语义规则,判断流程图如图4所示。
分析图4可知,本文研究的文本极性智能判断方法共分为五步:
1) 对提取出来的文本数据进行预处理,通过Java工具提炼所有的分词。
2) 构建情感词典,将情感词典与文本中的数据进行匹配,如果情感词典中不包含文本数据中的关键词,则要重新设定阈值,计算情感极性。
3) 通过表情词典提炼文本中的表情符号,如果文本中不包含表情符号,则直接进入下一步。
4) 同时使用否定词典、修饰词典和连接词典计算出文本的感情倾向值。
5) 利用加权算法对上述步骤进行求值,得到最终的情感倾向值[S],如果[S>0],則判断该文本方向为正向;如果[S<0],则判断该文本方向为负向。
文本数据提取与预处理
文本数据提取
文本数据提取采用网络爬虫提取方式,所有的目标网站和关键字需要自定义[11]。文本数据信息量大,一些文本数据还需要登录,普通爬虫难以直接提取数据,本文利用Python设计了一种新的爬虫,能够模拟登录用户ID,本文设计的爬虫为sc