1 / 70
文档名称:

基于潜在语义索引的文本聚类技术分析.docx

格式:docx   大小:9,090KB   页数:70页
下载后只包含 1 个 DOCX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

基于潜在语义索引的文本聚类技术分析.docx

上传人:wz_198613 2018/5/15 文件大小:8.88 MB

下载得到文件列表

基于潜在语义索引的文本聚类技术分析.docx

相关文档

文档介绍

文档介绍:沈阳航空工业学院硕士学位论文
摘要
随着信息技术的发展,人们需要对大量的文本资源进行有效的组织,以利于主题发现、信息检索等。于是,文本聚类技术应运而生,它是自然语言处理领域的重要课题。文本聚类技术的研究取得了良好的成果,同时文本聚类中存在大量同义词、近义词等特有的自然语言现象。本文利用潜在语义索引探讨和研究这种语言现象,改善文本聚类的性能。
潜在语义索引中的奇异值分解技术将原始特征空间转化到相应较小的潜在语义空间。本文分析了原始特征空间投影到潜在语义空间的过程,发现文档集合中文档频率较高的特征给潜在语义空问引入一些不合理的特征传递关系,影响了特征与特征和文档与文档的相似度。利用潜在语义空间中文档内特征与特征和文档间特征与特征之间的传递关系,提出了一种潜在语义索引特征优化技术,对潜在语义空间中特征之间的传递关系进行选择。实验结果表明,该方法有效地提高了潜在语义索引的性能。
在文本聚类算法的研究过程中,针对划分聚类算法对初始点选择敏感,易陷入局部最优的问题。本文分析了初始点的特征,考虑将文本集合中K个文本作为不同类别的初始点使得这K个文本之问相似度和最小,提出了--哥oo基于文本最小相似度的初始中心选取方法,避免了将大类拆分成小类及边界点作为初始点。实验结果表明,该方法有效地减少了聚类算法的迭代过程并提高了聚类性能。
最后本文实现了一个基于潜在语义索引的文本检索系统,对检索的初始结果进行特征传递关系选择并通过聚类手段调整检索结果。。实验表明,该方法能有效地提高检索效果。
关键词:文本聚类;潜在语义索引;特征传递关系;初始中心点选择
Abstract
With the development of information technology,a large amount of document sources are needed to be anized for topic discovery,information retrieval, meet these requirements,the document clustering technique emerges in time,which is an important research topic of natural language progresses have been made in the research of document natural language phenomena such as a great number of synonyms and polesemy exist in document Semantic Indexing(LSI)is used
to discuss and resolve these phenomena in order to improve the performance of document
clustering in this thesis.
Singular Value position(SVD)technology of the LSI transforms the original term space to the corresponding smaller latent semantic space,during which the terms with high document frequency introduce some unreasonable term transfer relations that influence the
similarity between terms and the similarity between documents in the document thesis proposes a feature optimize technology in latent semantic indexing by making use of
the transfer relation of terms in the documents and between the documents in document sets.
This method can choose the transfer relations in latent semantic space,and the experimental
results show that this me