1 / 12
文档名称:

基于异质信息网的短文本特征扩充方法 吕晓锋.pdf

格式:pdf   大小:1,206KB   页数:12页
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

文档介绍:Evaluation Warning : The document was created with Spire.PDF .

计算机科学 4 武永亮 5 张宝奇 1,2,3

1 河北师范大学计算机与网络空间安全学院 石家庄 050024
2 供应链大数据分析与数据安全河北省工程研究中心 石家庄 050024
3 河北省网络与信息安全重点实验室 石家庄 050024
4 河北师范大学软件学院 石家庄 050024
5 石家庄铁道大学信息科学与技术学院 石家庄 050043
(1586821231@qq.com)

摘 要 随着计算机技术深度融入社会生活,越来越多的短文本信息遍布在网络平台上。针对短文本的数据稀疏问题,文中构建了一个鲁棒的异
质信息网框架(HTE)来建模短文本,该框架可集成任何类型的附加信息并捕获它们之间的关系,以解决数据稀疏问题。基于该框架利用不同外
部知识设计了 6 种短文本扩充方法,引入 Wikipedia 知识库和 Freebase 知识库的实体、实体类别、实体间关系等实体信息和文本主题等文本信
息,以丰富短文本特征。最后使用相似性度量结果来验证提出的短文本特征扩充方法的效果。通过与传统的 3 种相似性度量方法的 6 种文本扩
充方法以及与目前主流的短文本匹配算法在两个短文本数据集上进行比较,结果表明,所提的 6 种短文本扩充方法均有所提升,最佳方法的相
似度度量结果与 BERT 相比提升了 5.97%。证明了所提框架具有鲁棒性,可以包含多种类型的外部知识,能够克服短文本的数据稀疏性问题,
以无监督的方式高精度地对短文本进行相似性度量。

关键词:异质信息网络;短文本扩充方法;短文本匹配;知识库;元路径

中图法分类号 TP391 DOI:10.11896/jsjkx.210700241

Short Texts Feautre Enrichment Method Based on Heterogeneous Information Network

LYU Xiao-feng1, 2, 3 ,ZHAO Shu-liang 1,2,3 , GAO Heng-da 4 , WU Yong-liang5 and ZHANG Bao-qi1,2,3

1 College of Computer and Cyber Security, Hebei Normal University, Shijiazhuang 050024, China

2 Hebei Provincial Engineering Research Center for Supply Chain Big Data Analytics & Data Security, Hebei Normal University, Shijiazhuang 050024,
China

3 Hebei Provincial Key Laboratory of Network & Information Security, Hebei Normal University, Shijiazhuang 050024, China

4 Software College, Hebei Normal University, Shijiazhuang 050024, China

5 School of Information Science and Technology, Shijiazhuang Tiedao University, Shijiazhuang 050043, China


Abstract With the deep integration of computer technology into social life, more and more short text messages are spreaded all over the web platform. Aiming at the

分享好友

预览全文

基于异质信息网的短文本特征扩充方法 吕晓锋.pdf

上传人:刘禅 2022/5/19 文件大小:1.18 MB

下载得到文件列表

基于异质信息网的短文本特征扩充方法 吕晓锋.pdf

相关文档