文档介绍:计算机研究与发展冶一一种高效的用于文本聚类的无监督特征选择算法刘涛吴功宜陈正南开大学信息技术科学学院天津微软亚洲研究院北京扣份犷肠聊反蜘是协乞妙勺泛尺入红①雌②摘要特征选择虽然非常成功地应用于文本分类但却很少用于文本聚类这是因为那些高效的特征选择方法通常都是有监督的特征选择算法它们因为需要类信息而无法直接应用于文本聚类为了能将这些方法应用到文本聚类上提出了一种新的无监督特征选择算法基于的特征选择算法这个算法通过在不同聚类结果上使用有监督特征选择的方法成功地选择出了最为重要的一小部分特征使文本聚类的性能提高了近巧关挂词特征选择文本聚类中圈法分类号引言在文本聚类中文本数据通常采用向量空间模型来进行描述在这个模型中每一个单词都作为特征空间坐标系的一维每一个文本是特征空间中的一个向量〔〕这种描述方法简单而且直接但是同时也使得文本向量空间变得非常的高维而且稀疏高维稀疏使文本聚类的性能急剧下降不仅需要花费很长的时间而且聚类的结果也很难令人满意为了解决这个问题最有效的方法就是通过特征选择来进行降维〕特征选择指的是根据一定的规则从原始的特征集中选择一小部分最有效的特征它根据其规则是否依赖类信息分为有监督的特征选择和无监督的特征选择两类收稿日期修回日期计算机研究与发展有监督的特征选择通常通过计算类与特征之间的关系来选择出最具类区分力的特征子集这类方法在文本分类上已经得到了非常成功的应用〔,但是因为需要类信息所以它们无法直接用在文本聚类上文本聚类通常使用的是无监督的特征选择可无监督的特征选择又因为缺乏类信息而很难选择出最具类区分力的单词所以当它们应用在文本聚类上时并不是非常有效不仅不能极大幅度地降低特征空间的维度而且也很难显著地提高聚类的性能所以为了能将那些高效的有监督的特征选择应用于文本聚类本文提出了一种新的无监督特征选择算法—基于的特征选择算法这个算法通过合并在不同聚类结果上进行的特征选择来得到最终的特征子集实验证明这个算法所得到的聚类结果已经接近理想的有监督特征选择所得到的聚类结果同时比任何一种无监督特征选择所得到的聚类结果都要优秀得多本文接下来还有个部分其中第节将介绍在文本分类和聚类上最为常用的几种特征选择方法第节将具体介绍本文新提出的基于的特征选择算法第节是实验与分析最后一部分是总结关程度其计算公式如式所示‘一全,其中户户万云一户若户万户户户户若代表所有单词的总数文档频数文档频数是最为简单的一种方法它指的是在整个数据集中有多少个文本包含这个单词单词权《单词权的定义如式所示它计算的是一个词在一对相关文本中的某一个文本中出现的条件下在另一个文本中出现的概率任任门吮尹其中月是一个相似闹值用来判断两个文本是否是相关的文本单词贡献度单词贡献度是一种较新的方法它认为一个单词的重要性取决于它对整个文本数据集相似性的贡献程度其计算公式如式所示各种特征选择算法咒‘名,‘在这一节我们将简单介绍在文本分类和文本聚类应用上最为常用的几种特征选择方法其中包括两种高效的有监督特征选择方法信息嫡和统计以及种无监督特征选择算法文档频数单词权和单词贡献度〔卜〕信息摘信息嫡衡量的是某个词的出现与否对判断这个文本是否属于某个类所提供的信息量〕其计算公式如式其中表示的单词在文本中的权重模式下的值基于的特征选择算法,一艺户户十户,习户户玉名户其中为类的个数代表一个类代表一个单词扩统计扩统计衡量的是一个