文档介绍：软件导刊
第卷%第期
年月 Software Guide
文本挖掘技术研究及其在信息检索中的应用
乔良
(华北科技学院,河北三河 101601)
摘要:文本挖掘是一个对具有丰富语义的文本进行分析从而理解其所包含的内容和意义的过程,已经成为数据挖
掘中一个日益流行而重要的研究领域。给出了文本挖掘的定义和框架,对文本挖掘中预处理、文本摘要、文本分类、
聚类、关联分析及可视化技术进行了详尽的分析,并归纳了最新的研究进展,指出了文本挖掘在信息检索中的作用。
关键词:文本挖掘;数掘挖掘;信息检索
中图分类号: 文献标识码:A 文章编号:1672-7800(2009)04-0160-02
分词技术
文本挖掘概述在对文档进行特征提取前需要先进行文本信息的预处
1 ,
理对英文而言需进行处理中文的情况则不同因
文本挖掘的定义, Stemming , ,
为中文词与词之间没有固有的间隔符空格需要进行分词处
借鉴对挖掘的定义我们给出文本( ),
Choon Yang Quek Web , 理目前主要有基于词库的分词算法和无词典的分词技术两
挖掘的定义。
: 种
文本挖掘是指从大量文本的集合中发现隐含的模式。
C p。特征表示
如果将看作输入将看作输出那么文本挖掘的过程就是
C , p , 文本特征指的是关于文本的元数据分为描述性特征如
, (
从输入到输出的一个映射
ξ:C→P。文本的名称日期大小类型等和语义性特征如文本的作
、、、) (
文本挖掘的一般过程
者机构标题内容等特征表示是指以一定特征项如词条
、、、)。(
文本挖掘的主要处理过程是对大量文档集合的内容进行
: 或描述来代表文档在文本挖掘时只需对这些特征项进行处
) ,
预处理特征提取结构分析文本摘要文本分类文本聚类
、、、、、、理从而实现对非结构化的文本处理这是一个非结构化向结
, 。
关联分析等图给出了文本挖掘的一般处理过程构化转换的处理步骤特征表示的构造过程就是挖掘模型的构
。 1 。。
造过程特征表示模型有多种常用的有布尔逻辑型向量空间
。, 、
模型概率型以及混合型等近
(Vector Space Model,VSM)、。W3C
来制定的等规范提供了对文档资源进行描述
XML、RDF Web
的语言和框架
。
特征提取
用向量空间模型得到的特征向量的维数往往会达到数十
图文本挖掘的一般过程
1 万维如此高维的特征对即将进行的分类学习未必全是重要
, 、
有益的一般只选择的最佳特征作为分类依据而且
2 文本挖掘技术分析( 2%~5% ),
高维的特征会大大增加机器的学习时间这便是特征提取所要
,
我们按照文本挖掘的过程介绍其涉及的主要技术及其主完成的工作特征提取算法一般是构造一个评价函数对每个
。,
要进展特征进行评估然后把特征按分值高低排队预定数目分数最
。, ,
数据预处理技术高的特征被选取在文本处理中常用的评估函数有信息增益
。,
预处理技术主要包括英文分词中文特征期望交叉熵互信
Stem