1 / 6
文档名称:

基于BERT模型的政策条件识别研究.doc

格式:doc   大小:16KB   页数:6页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

基于BERT模型的政策条件识别研究.doc

上传人:彩霞 2022/5/12 文件大小:16 KB

下载得到文件列表

基于BERT模型的政策条件识别研究.doc

相关文档

文档介绍

文档介绍:基于BERT模型的政策条件识别研究
摘 要
企业想要从近年国家推出的各种惠企政策中找到适合自身的优惠政策需要花费大量的时间,为了节省时间成本以及实现惠企政策更好的推送,本文利用BERT+DNN模型的方式,使用BERT将网络。网络会通过自身的神经元进行复杂的运算,整合出输入数据与输出数据的关系。从而发现事物的特征以及事物之间的内在关联,并以参数的形式存储下来。新的数据进入模型,根据已经存储下来的参数进行计算可以自动分类。
2 政策条件识别实证研究
研究流程
首先收集福州工信局、福州市人民政府、福州市政府公开信息栏这三个门户网站发布的政策。第二,将收集好的政策按照句子为单位拆分。第三,依据企业标签体系将政策中的企业申报补贴条件打上对应的标签值。第四,将所得句子输入到BERT模型,获取句子的句向量。第五,将数据分为训练集与验证集,并将训练集输入到DNN模型中进行训练。最后利用验证集检验模型分类效果。
数据预处理
政策文件的收集与处理
首先,本文利用网络爬虫技术,收集了来自福州工信局、福州市人民政府、福州市政府公开信息栏三个政府门户网站的166个政策文件。然后,设定规则将政策文件按照句字拆分并清理掉无用的符号,总共得到8465句话。最后将数据输入到GOOGLE训练好的专用于中文词向量化的BERT模型中,得到句子向量化后的数据。并将数据分为训练集与测试集。
企业标签的获取
本文设定9个维度去刻画一家企业,分别为:基础信息、经营状况、企业绩效、企业发展、经营风险、知识产权、社会贡献、舆情信息、企业法人群体。政策文件中对企业申领补贴的条件会与这9个维度的标签相对应。所以政策文件中属于申领补贴条件的句子会被打上标签值为1-9的标签;若政策文件句子不属于任何维度则标签值为0。
数据的分布
整理本文得到各类条件的占比以及分类如表1。
基于BERT模型输出结果说明
本文使用的BERT模型,是由GOOGLE发布的用中文训练所得模型。将数据输入模型得到每个句子的向量,输出的结果中包含的信息如下:
●整个BERT模型由12层transformer构成,本文结果从倒数第二层取出。
●结果中包含8465个条目,每个条目与训练前的句子一一对应。
●每个条目中都有名为CLS的向量,其维度为768维,包含了整句话的所有信息。
●各条目中包含了原句的单个字的信息,每个字都被训练为768维度的向量。
本文旨在从政策文件中提取出是条件的句子以及给条件分类,所以后续任务中用到拥有每个句子所有信息的CLS来进行分类即可。
基于DNN网络分类结果分析
得到包含政策句子的句向量后,需要搭建DNN神经网络模型进行多分类,本文利用Python编程,使用keras深度学****框架搭建神经网络。网络的参数如下:
●输入层,神经元个数24、输入维度768、激活函数为relu.
●隐藏层1,神经元个数16、激活函数为relu.
●隐藏层2,神经元个数12、激活函数为relu.
●输出层,神经元个数10、激活函数为softmax.
随机抽取8