文档介绍:文本空间向量模型的主要思想是:将每一个文本表示为向量空间的一个向量,并以每一个不同的特征项(词条)对应为向量空间中的一个维度,而每一个维的值就是对应的特征项在文本中的权重。向量空间模型就是将文本表示成为一个特征向量:
V(d)二((t,w文本空间向量模型的主要思想是:将每一个文本表示为向量空间的一个向量,并以每一个不同的特征项(词条)对应为向量空间中的一个维度,而每一个维的值就是对应的特征项在文本中的权重。向量空间模型就是将文本表示成为一个特征向量:
V(d)二((t,w),(t,w(t,w))
1122nn
其中t(i二1,2,...,n)为文档d中的特征项w为t的权重,一般取为词频的
iii
函数。
一般选取词作为文档向量的特征项,最初的向量表示完全是0,1的形式,即如果文本中出现了该词,那么文本向量的该维为1,否则为0。这种方法无法体现这个词在文本中的作用程度,所以逐渐0、1被更精确的词频代替,词频分为绝对词频和相对词频,绝对词频,使用词在文本中出现的频率表示文本,相对词频为归一化的词频,其计算方法主要运用TF-IDF公式,目前存在多种形式的TF-IDF公式。
在向量空间模型中,两个文本d和d之间的相关程度可以用它们之
12
间的相似度来度量。当文本被表示为向量空间模型中的向量时,我们可以借助于向量之间的某种距离来表示文本之间的相似度,通常用向量之间的内积或者用夹角余弦值来表示。
根据以上理论的指导,我做了如下实验。选取词作为文本向量的特征项(预先把中文词汇的停止词去掉,比如标点符号,啊,阿,哎,哎呀等)。文本向量权重的选取为特征词在文本中出现的次数。两个文本间的相似度用夹角的余弦值表示。比如连个文本D二{iphone5s,16G},文本
1
D={iphone5s,16G,电信版},文本D={iphone5s,16G,移动版}。现在计算D和
231
D之间的相似度。
2
步骤一:得到两个文本特征项集合的并集{iphone5s,16G,电信版}
步骤二:D的向量表示{1,1,0}
1
步骤三:D的向量表示{1,1,1}
2
步骤四:根据向量余弦夹角公式cos0=二计算两个文本的相似度。
IIvIllivII
12
步骤五:保存结果。
实验结果D,D的相似度为,D和D的相似度为0.。
1223
主程序流程图:
用特征项表示各个文本
用特征向量表示各个文本
计算所有文本间的相似度
结束
这个程序还比较简陋,里面还存在一些问题,只是一个入门程序,现在正在研究TF-IDF公式。TF是词频,不同类别的文档,在特征项的出现频率上有很大差异,因此特征项频率信息是文本分类的重要参考之一,一般TF较大的特征项在该类文档中具有较高的权重,也就是说如果一个词有某类文档中经常出现,那么