文档介绍:: .
计算机科学 4 武永亮 5 张宝奇 1,2,3
1 河北师范大学计算机与网络空间安全学院 石家庄 050024
2 供应链大数据分析与数据安全河北省工程研究中心 石家庄 050024
3 河北省网络与信息安全重点实验室 石家庄 050024
4 河北师范大学软件学院 石家庄 050024
5 石家庄铁道大学信息科学与技术学院 石家庄 050043
(******@)
摘 要 随着计算机技术深度融入社会生活,越来越多的短文本信息遍布在网络平台上。针对短文本的数据稀疏问题,文中构建了一个鲁棒的异
质信息网框架(HTE)来建模短文本,该框架可集成任何类型的附加信息并捕获它们之间的关系,以解决数据稀疏问题。基于该框架利用不同外
部知识设计了 6 种短文本扩充方法,引入 Wikipedia 知识库和 Freebase 知识库的实体、实体类别、实体间关系等实体信息和文本主题等文本信
息,以丰富短文本特征。最后使用相似性度量结果来验证提出的短文本特征扩充方法的效果。通过与传统的 3 种相似性度量方法的 6 种文本扩
充方法以及与目前主流的短文本匹配算法在两个短文本数据集上进行比较,结果表明,所提的 6 种短文本扩充方法均有所提升,最佳方法的相
似度度量结果与 BERT 相比提升了 %。证明了所提框架具有鲁棒性,可以包含多种类型的外部知识,能够克服短文本的数据稀疏性问题,
以无监督的方式高精度地对短文本进行相似性度量。
关键词:异质信息网络;短文本扩充方法;短文本匹配;知识库;元路径
中图法分类号 TP391 DOI:
Short Texts Feautre Enrichment Method Based on Heterogeneous Information Network
LYU Xiao-feng1, 2, 3 ,ZHAO Shu-liang 1,2,3 , GAO Heng-da 4 , WU Yong-liang5 and ZHANG Bao-qi1,2,3
1 College of Computer and Cyber Security, Hebei Normal University, Shijiazhuang 050024, China
2 Hebei Provincial Engineering Research Center for Supply Chain Big Data Analytics & Data Security, Hebei Normal University, Shijiazhuang 050024,
China
3 Hebei Provincial Key Laboratory of Network & Information Security, Hebei Normal University, Shijiazhuang 050024, China
4 Software College, Hebei Normal University, Shijiazhuang 050024, China
5 School of Information Science and Technology, Shijiazhuang Tiedao University, Shijiazhuang 050043, China
Abstract With the deep integration of computer technology into social life, more and more short text messages are spreaded all over the web platform. Aimin