1 / 6
文档名称:

基于广泛相似度的维吾尔语文档分类方案.pdf

格式:pdf   大小:4,821KB   页数:6页
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

基于广泛相似度的维吾尔语文档分类方案.pdf

上传人:changjinlai 2017/9/24 文件大小:4.71 MB

下载得到文件列表

基于广泛相似度的维吾尔语文档分类方案.pdf

相关文档

文档介绍

文档介绍:2017年 6 月计算机工程与设计 June 2017
第 38 卷第 6 PUTERENGINEERINGANDDESIGN Vol . 38 No . 6
基于广泛相似度的维吾尔语文档分类方案
如先姑力. 阿布都热西提亚森. 艾则孜1+,年梅 2
( 1 . 新疆警察学院信息安全工程系,新疆乌鲁木齐 8 3 0 0 1 1 $
2 . 新疆师范大学计算机科学技术学院,新疆乌鲁木齐 8 3 0 0 5 4 )
摘要" 针对维吾尔语文档自动分类问题, 提出一种基K - 于m eans 广泛聚相类似的度文度档量分和类方案。将维吾尔语文
档进行预处理, 通过词频- 逆T 向F -ID 文 F ) 档算频法率获( 得关键词集合; 利用提出的广泛相似度度量, 通过考虑与语料
库中其它文档之间的距离, 计算文档间的相似度; 基于广泛相似度构建一个集群距离矩阵, 获得一组基础集群; 将基础集
群的中心作K -m 为 eans聚类的初始中心, 完成所有文档的聚类。实验结果表明, 该方案具有较高的分类精度和较低的计
算时间。
关键词: 维吾尔语; 文档分类;;K 广泛-m eans 相似聚度类; 词频- 逆向文档频率
中图法分类号: T P 3 1 1 文献标识号:A 文章编号: 1 0 0 0 - 7 0 2 4 ( 2 0 1 7 ) 0 6 - 1 6 8 6 - 0 6
d o i : 1 0 . 1 6 2 0 8 / .is . s n l0 0 0 - 7 0 2 4 . 2 0 1 7 . 0 6 . 0 5 4
U ygur docum ent classification schem e based on extensive sim ilarity
R u x i a n g u l i • A B U D U R E X I T I 1 ! Y a s e n • A I Z E Z I 1G ! N I A N M e i 2
( 1. D epartm ent o f In fo rm a tio n S ecurity E n g in e e ring ,X in jia n g Police C ollege,U ru m q i 8 3 0 0 1C 1 hin , a ;
2. School o f C om puter Science and T e ch n o lo g y,X in jia n g N o rm a l U n iv e rs ity ,U ru m q i 8 3 0 0 5 4China , )
A b s tra c t: F or the issue o f the autom atic classification o f U yg h u r docum ents ,a U y g u r document classification scheme based on
extensive s im ila rity and K-m eans clustering was proposed U ig h u r documents were preprocessed , and te rm frequency-inverse
document