文档名称：

2021年基于文本信息的聚类方法研究文本聚类.docx

格式：docx 大小：20KB 页数：9页

下载后只包含 1 个 DOCX 格式的文档，没有任何的图纸或源代码，查看文件列表

如果您已付费下载过本站文档，您可以点这里二次下载

预览

下载此文档

2021年基于文本信息的聚类方法研究文本聚类.docx

上传人:读书之乐 2021/3/25 文件大小：20 KB

下载得到文件列表

2021年基于文本信息的聚类方法研究文本聚类.docx

相关文档

文档介绍

文档介绍：基于文本信息的聚类方法研究文本聚类

　　　　摘要：伴随信息技术和Web技术的发展，怎样从海量的Web文本信息中找到自己所需信息已成为一个主要的研究领域。在众多信息获取方法中，聚类技术是一个被广泛应用的方法。总结了文本聚类算法的研究现实状况，比较了算法的关键差异和整体思想，并分析了多种方法的优劣，同时指出了文本聚类研究以后的发展趋势，即在粒子群聚类过程中融入其它传统聚类方法的思想，以提升聚类性能。
　　关键词关键词：文本聚类；数据挖掘；粒子群算法；信息检索；自然语言处理
　　中图分类号：TP301 文件标识码：A 文章编号文章编号：167278002021008004003
　　作者介绍作者介绍：安靖1980-，女，中国人寿保险股份有限企业研发中心职员，研究方向为智能信息处理、软件设计。
　　0 引言
　　伴随互联网的大规模普及和应用，海量文本信息不停涌现，互联网已成为一个庞大而杂乱无章的信息库。所以，大家迫切需要能够实现自动聚类和分类处理的技术，从而在节约时间的同时，能够更加好地检索到自己所需类其余文件。高效的文本检索需要优质的索引和文本概要，文本聚类技术即是处理此问题的一条有效路径。文本聚类过程是指将一个训练文本集合分成若干聚类簇Cluster，每个聚类簇中的文本之间含有较大的共性，而不一样聚类簇的文本含有很小的相同性。和之对应的是，文本分类通常是经过数理统计方法或知识工程来实现的。
　　文本聚类技术在数据挖掘领域研究中有着主要的地位，通常来说，它和文本分类的功效是相辅相成的。聚类技术关键是依据聚类假设原理：同类的对象相同度大，不一样类的对象相同度小。文本聚类技术是自然语言处理Natural Language Processing， NLP和信息检索Information Retrieval， IR等研究领域包括的热门课题，它是一个无监督的机器学****技术，因为聚类不需要提前训练，也不需要事先对文本材料进行人工分类。所以，它含有较高的自动化处理能力和灵活性，从而成为文本信息组织、概要提取和导航的主要手段，被越来越多的研究者所青睐。
　　目前，最常见的文本聚类和分析方法包含层次聚类方法、基于模型的聚类方法如统计学算法和神经网络算法，和依靠平面划分的聚类方法如K中心点聚类算法等，它们已经被广泛地利用于知识管理系统、商业智能系统和CRM系统中。而且，能够能利用这些算法来部分处理智能检索系统存在的所谓“信息过载”的难题，从而过滤掉用户文本信息检索结果中的大量“噪声”，提升检索信息的相关度和正确度。
　　现在，因为大规模、多复杂数据集的出现，大数据的分析和处理对聚类技术提出了更高的要求，关键表现在聚类算法需要含有一定的可伸缩性、能够处理多种类型数据、能够发觉任意形状的聚类簇和能够高速分析高维数据等，并要求用户能够对聚类的结果进行判定、充足了解和使用，传统聚类手段显然已经难以应对这一系列的问题和需求。为处理上述难题，各个领域的研究者们开始尝试研究多种新型的智能聚类技术。其中，属于群智能算法的粒子群优化算法PSO逐步引发了业界的注意，而且一系列试验表明，此方法在聚类分析效果上显著优于传统方法。
　　1 基于层次分析的聚类方法
　　所谓层次分析就是对给定的数据集合进行层次上的分离，即分界。在层次法聚类过程中，用树结构表示