文档介绍：Termweight计算方法Termweight用途简介在文本分类和信息检索中,广泛使用bagofwords模型来进行文本表示,在这种模型中,文木被看作是无序的词汇集合,该模型假设word之间完全独立,忽略语法以及单词的顺序。该模型将处理的文本在向量空间111表示成一个向量,向量小的每一个项为文本111的word,分类过程和检索过程即对该文木向量的一些计算。此时分类和检索的性能的好坏就取决于模型参数的取值和向量中对应term的取值的好坏,Termweight主要解决的是每一个term的取值的准确反映term在文本中的重耍性。在信息检索屮的扩展布尔模型中和概率模型中、分类的图模型中也可以使用termweight比如:对于termlorterm2这样的计算可以表示成x2+y2sim(q°r,dj)=I—-—对于termlandterm2这样的计算相似度可以表示成sim(qand,dj)=1-x和y即为terml>term2的termweight静态termweight常用的计算方法1基于语言模型的方法统计term在文档集合屮的idf值作为该term的静态termweight改进:1) 町以更换文档集合得到不同的类idf静态termweight,比如****各文档集合•换成query集合可以得到iqf的termweight2) 对不同文档集合得到的idf值进行线性加权3) 根据词语搭配使用爛的方法计算termweight,term搭配的词语越多,爛越人,termweight越小4) 在分类模型中,可以川其他的特征选择方法得到的值來替换idf优缺点:1) 计算简单,对数据进行优化,采用不同的文档集合得到针对的应用的termweight2) 不考虑上下文关系,牵一发而动全身,不好针对case进行优化。2基于term共现关系的图的方法采用图的方法,用类pagerank方法进行图的表示和迭代,最基本的是TextRank方法将文档集合中所有切词term作为图屮的节点,而term在一个文档屮的共现关系作为图屮的一条边。给每个节点一个权重,对图进行循坏遍历,使用下列公式更新节点权重计算公式为:s(匕)=(—d)+dy叫)血)10叫1该模型为无向图,即两个共现的term的只有一条边,对各自而言均为out的边,该模型假设共现次数越多的term越重耍,所以在实际使用时一般只把重耍的term作为图中的节点,即需要去停用词代表论文:TextRank:BringingOrderintoTexts改进:1) 对共现关系使用一个窗口,即只在该窗口内的共现关系才作为图中的一条边,窗口的大小可调,根据应用调整窗口人小。2) 为边根据节点相似度赋予权重,赋权的方式冇多种3) 使用不同的节点权重更新公式,不同的初始权重赋值方法。4) 引入更多的边的关系5) 使用不同的文档集合,短文本集合、长文本集合、session等。优缺点:1) 图的算法理论和算法都比较多,比较好采用现成的一些方法。2) 计算比较复杂3基于文本和term共现关系的方法采用图的方法,具体为将文木和term作为二分图的两端,某种关系作为边的连接,然示使用HITS方法进行图迭代。把文档集合作为文档节点集合D,把文本中出现的term作为term节点集合T,D和T分別位于二部图的两侧,当D中的一个doc和T中的一个term有共现关系时,这两