1 / 6
文档名称:

基于BERT模型的航天科技开源情报分类.pdf

格式:pdf   大小:1,317KB   页数:6页
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

基于BERT模型的航天科技开源情报分类.pdf

上传人:qvuv398013 2021/7/17 文件大小:1.29 MB

下载得到文件列表

基于BERT模型的航天科技开源情报分类.pdf

文档介绍

文档介绍:万方数据
基于模型的航天科技开源情报分类孔凡芄保跣窈,跣憷,一,李晗引言要:提出一种基于模型的航天科技开源情报分类算法。通过双向机制捕捉航天科技开源情报中句子间的关系;采用甴专有名词;结合掷嗥鞫蕴崛〉奶卣鹘蟹掷唷S隩等主流语言模型相比,该算法在测试集上的准确率分别提升%、ィ橹ち烁盟惴ㄔ诤教炜萍伎T辞楸ǚ掷与日俱增,互联网上航天科技开源情报的爆炸式增长为情报的快速分类带来严峻挑战,提升相关情报的分类准确率对于提高航天领域科研人员的工作效航天科技开源情报的分类本质上属于文本分类流方法有以卷积神经网络与循环神经网;〉纳疃妊澳P停缥南譡中提出的P停枚喔霾煌笮〉木砘文章编号:———/甤痭...摘机制关注文本中的大量上的有效性。关键词:文本分类;模型;航天科技;开源情报中图分类号:文献标志码:近年来航天事业迅猛发展,开源情报‘的价值率具有重大意义。问题。目前文本分类技术已经较为成熟,常见的主络第卷第年北京信息科技大学学报;.北京信息科技大学网络文化与数字传播北京市重点实验室,北京;本┬畔⒖萍即笱萦肟蒲楸ǚ治鍪笛槭遥北京;本┐笱П贝蠓秸庞邢薰臼殖霭婕际豕抑氐闶笛槭遥本”,琇保琇·.:甎瑃;;.瑃%畐.:;籥收稿日期:基金项目:国家重点研发计划项目;北京市自然科学基金资助项目槐贝蠓秸庞邢薰臼殖霭婕际豕重点实验室专项课题;面向边缘计算的创新科研平台建设项目槐本┬畔⒖萍即笱А扒谛湃瞬拧迸嘤苹第一作者简介:孔凡芄,女,硕士研究生;通讯作者:刘秀磊,男,博士,副教授。.西,珺,,,獁,,.,.
万方数据
分类算法提取句子中的关键信息,从而能够更好地捕捉局部相关性。文献岢龅腞—惴ǎ状谓疃学****应用于目标检测中,将目标检测的验证指标嵘ィ⒋蟠蠹跎倭思扑懔俊5鲜瞿型在训练过程需要大量语料,且耗费较多时间与硬以对少量语料进行预训练,生成词向量后用于下游挝瘢航饬擞捎诓糠至煊蛴锪瞎俣贾卵练效果较差的问题。扔镅阅P图芄的提出,及相关方法如譲、、¨在航天领域文本分类研究中,张亚超¨于注意力机制的—谋痉掷嗨惴ǎ唤可以捕捉上下文内容信息,还可以更好地消除单词歧义。徐建忠等¨列结合贝叶斯算法与际跹发了一套服务器~客户端模式的航天文本分类系统。郭颂。岢隽嘶谥С窒蛄炕暮教炝煊蛭本分类算法,并设计了航天领域内不同类别信息的多分类流程框架。上述模型均在一定程度上提升了由于航天科技开源情报中存在大量专有名词且基于模型的航天科技开源情报分类算法。该算法通过提取航天科技开源情报的关键特征,并将获取到的关键特征输入到掷嗥中进行分类。通过与其他算法的分类效果进行对借鉴文献中文本预处理的方法,对航天科技开源情报数据中的无效信息进行清理,主要包括去除指定的无用符号、去除停用词、去除非文本数据及去除无意义文本。去除指定的无用符号是指使用替换文本中指定的字符,从而去除文本中大量重复型可以更好地拟合实际的语义特征,增加模型的泛化能力。由于航天科技开源情报原始数据中附带有要清除这些对分类无效的内容。此外,文本中存在的广告、版权信息等内容也不该作为特征被模型所瓶梢杂行У丶婀松舷挛挠镆逍畔ⅲ有利于全面提取航天科技开源情报的特征,所以本文提出基于的航天科技开源情报分类算法进行相关文本的分类。模型以双向莆;。上下文语义,其模型架构如图尽啤S捎赥机制是一次性到左地按顺序读取,这一特性使得模型能够基于宇算法的初始输入是预处理后的航