1 / 66
文档名称:

基于潜在语义索引和支持向量机的文本分类过滤技术研究.pdf

格式:pdf   大小:3,473KB   页数:66页
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

基于潜在语义索引和支持向量机的文本分类过滤技术研究.pdf

上传人:陈潇睡不醒 2021/10/31 文件大小:3.39 MB

下载得到文件列表

基于潜在语义索引和支持向量机的文本分类过滤技术研究.pdf

相关文档

文档介绍

文档介绍:基于潜在语义索引和支持向量机的文本分类过滤技术研究
摘 要
随着我国互联网基础建设的日趋完善,网络技术的创新发展,网络已日益渗透到
各个行业,其影响涉及到人类社会生活的各个方面,网络的应用已经从生活娱乐逐步
向社会经济领域渗透,网民对互联网的要求也日渐提高。然而,如何从因特网中过滤
掉与个人兴趣不相关信息并免受不法信息的侵扰,已成为迫切需要解决的问题,信息
过滤已成为当前网络信息技术领域中研究的一个重要部分。
本文通过分析文本信息过滤的模型,探讨文本分类技术应用于过滤系统的可行性
以及过滤系统性能评价指标等,按模块化的设计思路,分为预处理模块、特征降维模
块、训练模块和过滤模块四大部分,设计并实现了基于潜在语义索引和支持向量机的
过滤系统。
本文提出了基于聚类和潜在语义索引模型相结合的特征降维方法。在深入研究了
特征降维方法的基础上,针对在分类方法中特征降维的特点以及要求,使用基于互信
息的改进 k-means 算法降维,将相同或相近的特征项进行了有效的合并,很大程度上
减少了特征个数。并将聚类与潜在语义索引方法相结合,对通过聚类得到的特征集进
行语义层面的压缩,对特征空间进行更深一层的降维。并进行了相关实验,结果表明
这种算法是可行的。有效解决特征集中大量的特征对类别判定的贡献非常小的分类问
题。
对于各种文本分类算法,本文着重对支持向量机(SVM,Support Vector Machines)
方法进行了研究。针对传统多分类方法中存在的问题进行了分析,提出了一种将遗传
算法和二叉树多分类 SVM 结合的分类方法,利用遗传算法对二叉树支持向量机优化
获得更好的模型,在每个节点应用遗传算法将多类训练样本划分为两类问题进行训
练,直到达到叶节点为止,使子类之间的可分性大大增强,从而得到合理的二叉树结
构,最终自适应的生成最优二叉树。该方法减少了分类的时间,提高了分类的精度,
最后为了验证改进算法的可行性和有效性,选取复旦大学的文本分类语料进行仿真实
验。
关键词:文本过滤;潜在语义索引;支持向量机;特征降维;信息过滤模型
Research on Text Classification Filtering Technology based on Latent
Semantic Indexing and Support Vector Machine
ABSTRACT
With the development of Internet infrastructure, network technology innovation and
development, the network has increasingly penetrated into various industries, Its effects
related to all aspects of human social life, the network application has been fun from life
and gradually to the socio-economic realm, the requirements of users on the network had
been steadily improving. However, how to filter out from the Internet and personal interest
not related to information and they are not subject to unlawful harassment has become an
urgent need to solve the problem,information filtering has become a field of information
technology in the current network is an important part of the study.
This paper explores the feasibility of technology and in filtering system and filtering
system performance evaluation ind