1 / 76
文档名称:

[优秀论文]基于向量空间模型的中文文本聚类方法的研究.pdf

格式:pdf   页数:76
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

[优秀论文]基于向量空间模型的中文文本聚类方法的研究.pdf

上传人:化工机械 2013/3/27 文件大小:0 KB

下载得到文件列表

[优秀论文]基于向量空间模型的中文文本聚类方法的研究.pdf

文档介绍

文档介绍:上海交通大学
硕士学位论文
基于向量空间模型的中文文本聚类方法的研究
姓名:姚清耘
申请学位级别:硕士
专业:通信与信息系统
指导教师:李翔;刘功申
20080101
基于向量空间模型的中文文本聚类方法的研究
基于向量空间模型的中文文本聚类方法的研究

摘要

文本聚类是聚类分析领域的一个重要研究分支,是聚类方法在文
本处理领域的应用。
本文对基于空间向量模型的中文文本聚类算法做了较深入的讨
论。利用开源语料库,实现并讨论了现有比较流行的多种算法的优劣,
并基于语料库的实际聚类效果,就维度确定、特征选择、文本表示等
方面提出优化方案。
本文首先回顾了中文文本聚类领域的已有成果,列举了文本聚类
领域在文本表示、文本相似度衡量、文本信息特征集缩减等方面的基
础研究工作。另外,本文回顾了现有的中文文本聚类算法,以及常用
的文本聚类效果评价指标。
在回顾了已有成果的基础上,本文针对向量空间表示模型,基于
搜狐研发中心搜狗实验室的开源语料,设计并实现了几种比较流行的
聚类算法,并根据实验结果,对这几种算法在多个层面上做了比对。
实验表明,层次法的聚类效果较好,但时间消耗较大;而划分法在聚
类效果的表现上不够稳定,但时间消耗相对较小。
在对实验结果进行分析后,本文还针对现有算法存在的一些问
题,在维度确定、特征选择、文本表示等多方面提出了改进,改变了
基于向量空间模型的中文文本聚类方法的研究
传统的空间向量模型单纯依靠词条进行统计的缺点,考虑了词条本身
所蕴含的含义以及词与词之间的关系,这些改进在基于语料库的文本
聚类实验中有效地提高了聚类的效果。在两种流行的聚类有效性评价
指标 PP 与 PR 的表现上,分别最多提高了 %与 %。这表明,
基于词条更多隐藏信息的文本聚类可以得到较好的聚类结果。

关键词:向量空间模型,文本聚类,语料库
II
基于向量空间模型的中文文本聚类方法的研究
RESEARCH OF VSM-BASED
CHINESE TEXT CLUSTERING ALGORITHMS



ABSTRACT

Text Clustering, one of the most important research braches of
clustering, is the application of clustering algorithm in Text Processing.
This paper makes relatively deep discussion in the field of
VSM(Vector Space Model)-Based Chinese Text Clustering algorithms.
By using Open Source Corpuses, it discusses with the strengths and
weaknesses of VSM-Based algorithms and presents optimizations of Text
Clustering algorithms, including dimension determining, feature selection
etc.
Firstly, this paper turns back to the achievement in the field of
Chinese Text Clustering; it lists the basic research in the areas of feature
selection and dimension determining. Moreover, it also discusses with the
Chinese Text algorithms and introduces basic knowledge of Clustering
Validity.
On the basis of these works, by doing research with the Open Source
Corpus of Sogou Laboratory, this paper implements several Clustering
algorithms. According to the effects of clustering of the corpus, it
III
基于向量空间模型的中文文本聚类方法的研究
d