文档介绍：基于文本分类中特征提取的领域词语聚类
刘华
[摘要]本文以领域特征明显的词和短语作为聚类对象,在分类系统的大规模语料库中,利用文本分类的特征提取方法进行词语的领域聚类,从而获得大规模的领域知识,用于文本分类和主题分析。
[关键词]特征提取领域词语聚类
Clustering Field Words by Character Extraction
in Text Classification
Abstract: Towards building a large-scale domanial repository for text categorization and topic analysis, this paper presents an algorithm that clusters field Words in classed large-scale corpus by character extraction in text categorization.
Keywords: Character Extraction, domanial words, Clustering
一引言
领域知识获取是基于内容的文本处理中的基础关键技术。文本分类和主题分析需要庞大的领域词表支持,依靠具有强文本内容表示功能的特征词语进行类目或主题的区分、主题词或关键词的标引。在信息抽取和信息检索中,抽取和检索的对象很大程度上也是领域相关的。
目前很多著名的知识库主要依靠专家手工构建,、。除此之外,也有许多自动方法来获取领域词语,主要分为两类:基于规则和基于统计的。基于规则的方法利用人工构建好的领域词语特征字(词)库(如“*病”)、经常与领域词语共现的指示词库(如“*防治”)和指示领域关系的关系词语库(如“学名为*”),在大规模语料中利用模板匹配的方式获取领域词语。基于统计的方法简单快速,主要利用机器学习的方法进行领域词语获取,如基于Bootstrapping、互信息、TFIDF等的领域词语自动获取。
本文将利用文本分类中的特征提取方法在大规模分类语料中自动获取领域词语。
二定义说明
在本文中将用到以下概念:
领域词语
词语表可分为通用词语和领域词语两部分,简单地说,领域词语是具有强文本表示功能的特征词语。所谓强文本表示功能,是指在文本表示时,能将文本的内容特征(例如领域类别、主题思想、中心意义等)鲜明地表示出来。例如,常见的虚词性成分(“总而言之”)的文本表示功能弱,而一些领域性强的体词性成分(“封闭式基金”)则文本表示功能强。
领域通用词和领域专类词
领域词语中又可根据词语的领域流通度分为领域通用词和领域专类词。领域通用词是表示领域的基本词语,代表了该类领域的质心特征,如体育类的“比赛、球队”;领域专类词专指性强、区别度高,能将领域的详细特征区分开来,如体育类中的“世界拳击理事会、拳王”则不仅可以将体育类和其他类区分开,还能将体育类内部的小类如拳击区分出来。
三特征提取方法分析
在文本自动分类中,关键的一个技术是特征提取。特征提取的步骤包括:词语切分,词频统计,加权计算和特征选择(二者通常结合在一起进行)。
经过权重计算和特征选择后,就能生成文本类别的核心向量,这些向量中的特征词可以认为是能代表该类文本特征的类别领域词。