1 / 3
文档名称:

基于概率潜在语义分析和Adaboost算法的文本分类技术研究.pdf

格式:pdf   大小:158KB   页数:3页
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

基于概率潜在语义分析和Adaboost算法的文本分类技术研究.pdf

上传人:zhufutaobao 2021/11/18 文件大小:158 KB

下载得到文件列表

基于概率潜在语义分析和Adaboost算法的文本分类技术研究.pdf

相关文档

文档介绍

文档介绍:理 论 新 探
基于概率潜在语义分析和
Adaboost 算法的文本分类技术研究
刘 苗 1,谢邦昌 2
( 统计学院,北京 100872; 应用统计研究所,台北 24205)
摘 要:文章从文本特征抽取、分类算法效率和精度两个角度出发,首先利用概率潜在语义分析
(PLSA)方法,有效地提取出隐含在文档词频数据中的语义概念信息;然后构建了分类精度较高的
Adaboost 算法作为分类器。 实验结果表明,该方法发挥了两种方法的优势,能够很好地完成对文本的
自动分类。
关键词:文本自动分类;概率潜在语义分析(PLSA);Adaboost;TEM 迭代
中图分类号:C812 文献标识码:A 文章编号:1002-6487(2010)19-0021-03
潜 在 语 义 分 析(Latent Semantic Analysis, LSA)[3]是 文 本
0 引言 分析中一种常用的降维技术, 该方法以文档-词矩阵为基础
进行分析,通过奇异值分解技术,得到了向量空间模型中文
随着计算机技术和网络的普及与发展, 很多信息都以 档的高维表示,并通过投影形成文档在潜在语义空间中的低
电子文本形式存储,如何在大量的文本资料中挖掘信息成为 维表示。 这种方法的理论依据是我们认为有一种潜在的语义
人们关注的焦点。 文本自动分类问题是文本信息挖掘中一项 结构隐含在文档中词语的上下文使用模式中, 而文档-词共
重要的研究内容,有着广泛的应用价值。 文本的自动分类技 现频率矩阵在一定程度上可以反映出词和不同主题之间的
术是指在给定的分类体系下,根据文本的内容自动地确定文