1 / 5
文档名称:

基于概率潜在语义分析的文本聚类研究.pdf.pdf

格式:pdf   页数:5页
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

基于概率潜在语义分析的文本聚类研究.pdf.pdf

上传人:xcweywk961 2015/12/21 文件大小:0 KB

下载得到文件列表

基于概率潜在语义分析的文本聚类研究.pdf.pdf

相关文档

文档介绍

文档介绍:维普资讯
第卷第期青岛理工大学学报
..

基于概率潜在语义分析的文本聚类研究
吴金学
莱芜职业技术学院计算机系,莱芜
摘要:根据内容对海量文本信息进行聚类分析,
中,首先利用奇异值分解对词一文档矩阵进行化简,达到降秩和去噪的目的;然后在聚类分析中,
采用概率潜在语义分析强化文档的区分特征,以聚类方法为基础,提出的方法改进了聚
类过程的鲁棒性,实验结果表明该算法的有效性.
关键词:文本;聚类;奇异值分解;概率潜在语义分析
中图分类号: 文献标志码: 文章编号:—一。一
随着信息技术的高速发展,产生了数目惊人的文本文档,如何帮助用户有效的检索、组织和管理这些
文本信息成为当务之急。文本聚类作为当今数据挖掘中的一项重要内容,它不但可以提高信息检索的查准
率和查全率,还可以用于信息组织,通过自动产生文本的层次簇或类,可以利用其对新文档进行分类。
常用的文本聚类分析利用向量空间模型将文档表示为词向量空间,其中每
个词对应着一个权值,通过计算文档之间的相似度,按相似度大小对文档聚类,常用的基于距离的聚类算
法有—算法、—算法、算法、算法等。由于文档中出现的词汇量巨大,因此表
示文档的向量空间往往是高维的,对其运算的计算量大;另外,虽然可以利用词权值的形式量化地表示
文档,但无法刻画文档的语义,加之文档本身一词多义和多词同义的干扰,造成聚类的准确性不高。
笔者利用奇异值分解,对词一文档矩阵进行化简以达到信息过
滤和去除噪声的目的,同时通过降秩,使得文档的高维向量空间模型,投影成在潜在语义空间中的低维矩
阵,
点,将隐类变量与共现数据对如词汇叫在文档中的出现,联系成概率统计模型,以此在聚类分析中设
计新的文档相似度计算方法,改善聚类精度.
相关概念
. 奇异值分解一
奇异值分解可以用于在多元事物中寻找主要变化因素,在文本分析中奇异值分解可以用来分析词与
词之间的相关性,,提取的尼个最大的奇异值
及其对应奇异向量所构成的新矩阵可以近似表示原文档集的文档矩阵,达到消除同义噪声和缩减矩阵
规模的效果.
在奇异值分解中,需计算词一文档矩阵的是秩近似矩阵尼《,祀,和托分别代表矩阵
的行列数。经奇异值分解后,矩阵可表示为个矩阵的乘积:

—一
式中和分别是的奇异值对应的左、右奇异向量矩阵;:是标准型; 是的转秩;的奇异值
收稿日期:一—
维普资讯
青岛理工大学学报第卷
按递减排列构成对角矩阵∑,取己,和最前面的个列构建的一秩近似矩阵
一∑
式中和的列向量均为正交向量,假定的秩为,则有
己, 一,
这样,可以用近似表征原词一文档矩阵,其中和中的行向量分别作为词向量和文档向量.
. 概率潜在语义分析
在自然语言处理中,给定个文档集一,。,⋯和个词集一叫,叫,⋯,叫以及个
文档和词的共现矩阵—,其中代表词叫在文档。,,⋯表示潜
在语义的集合,,并且潜在语
义在文档或词上分布也