文档介绍:计算机工程 2010 年 2 月
第 36 卷第 4 期
February 2010
Engineering
·软件技术与数据库· 文章编号:1000—3428(2010)04—0030—03 文献标识码:A 中图分类号:TP311
基于主题的中文短信文本分类研究
刘金岭
(淮阴工学院计算机工程系,淮安 223003)
摘要:根据中文短信文本分类的特点,提出同义概念归并、上下位概念的聚焦以及短信文本重点词汇的确定方法,利用主题句选取算法
获取短信文本的主题,采用 KNN 算法将短信文本的主题进行分类。仿真实验结果表明,该算法能够有效提高短信文本的分类速度。
关键词:短信文本;KNN 算法;主题句
Study on Chinese Short Message Text Classification Based on Theme
LIU Jin-ling
(Dept. puter Engineering, Huaiyin Institute of Technology, Huaian 223003)
【Abstract】According to characteristics of Chinese short message text categorization, some contents are proposed, such as the synonymy concept
merging, the superior concept and sub-concept semantic focusing and using of topic sentences. The algorithm getting theme of short text is used to
obtain the text theme. KNN algorithm is also used to classify the short text subject. Simulation experimental results show this algorithm can improve
the classification speed of the short text.
【Key words】short message text; KNN algorithm; theme sentence
1 概述类准确性和稳定性,优于贝叶斯、决策树等其他方法。KNN
短信的使用己渗透到社会的各个领域,与此同时,通过可以较好地避免样本的不平衡问题;对于类域的交叉或重叠
短信传播非法内容以及垃圾信息的现象也随之增多,且其带较多的待分样本集更为适合;对于样本容量较大的类域的自
来的损失也在不断增大。因此,进行海量短信信息的研究分动分类,较为适合。但由于 KNN 计算量较大,因此本文采
析,建立有效、准确的舆情预测模式,显得十分重要。基于用对已知样本点进行主题文本选取,以降低 KNN 算法的计
短信的文本分类必须针对短信文本的特点,开发适应性技术。算复杂度来提高短信文本分类的效率。
现有的文本分类方法主要有支持向量机(SVM)、K 最近邻 3 短信文本主题的选取算法
(