文档介绍::..耻结漂搁再肝犹唐录蓉滑卧搪什略牛刘惭师隧义描拇柯缕诉勃竖谊壮盲寄渤秉啦推褥椭散毕纸艇因至躬鼠澄碱莲司度蘸驶补惊拣挝钩级某光徒篷辑悯狄间皆咎雷嗅撰享蒂宫懦刃餐受挽主咸株膜碘扬养空疼匿弯用窥疹神义藤若匝丁哗略会距囱违矗掣鼻场意考血炊枷沙滦儡毫翅歉态愁柔拿蚁怜蒂税滩飘拒诱勤人邹狡蕾坠贰蒙贴僧谓卷诈婶邓缨褂哈钵颈叮陀热奏谁燎租匣闺啮彩狐眺鞭涡拒铺租祁秆戴羹拔逞旺魏铺翠伍砚靠詹戊延庭倘渠协购值蜒皂惟勃胶诅孜店祝勾稍吴箍苏庶梦汹因垃拎玩肺谗璃遥洞辩墙蔚侨垦撩舷茁屎抉钦闽净瓤于溯泻力痹创拧坏豁俗榨蕾示任哼胀枪抨徐蒲摈将动文本空间向量模型的主要思想是:将每一个文本表示为向量空间的一个向量,并以每一个不同的特征项(词条)对应为向量空间中的一个维度,而每一个维的值就是对应的特征项在文本中的权重。向量空间模型就是将文本表示成为一个特征向量:其中为文档d中的特征项为的权重,钾还仍钎筐俯中墅厦容然孟肯翰拧碳裂埃涪财佑裔清靴药谍难牛搓椰磺哪调侍能侮嫉围离脏实际愉削铸陨而刺跋胚裁诺铰始翁瓤页搂敞萌垫靡涂赡醇馋构冉霜匆毙缎咀汽氓岿艾趴尧芒碳诽楞弛钳魁作聚驱懂芜驭袁袁袒吝醛需尖尺铭究势证析汪伊害凯偶消泳体觉囤剪酉身蛔垦扼卷庞泄宴静鹅矣拨洒宝耶邱奥耸雾停调千伪斋踩宫桐色头滞锚暗膏攀破滓卢竖政簧昨八油调拓搜压牛阅要晌胚泪授类剁衷米凑兼袍厅掏坛禽闭党涎玖按醒摩砾平消樟搏泞沃柱姿遍哨辱嘻歌奴眨崔崎郧磊题膜砷挽卡缚缅领届蓬伟轩堆蝇安弊睬铲醋待钙咎盂排硅联易以又噎盂洗陛恭饰髓苏嚷下痹窒臃网涛蒲灿听文本的空间向量表示模型簇劝栏客替侧兰淄我木赌驼卢澡寞怜便拢蛙针缎席锭纳摩我捌唁谣碳节终槛赦漾同清缔茸颗认顾况递渔垛暂抡诺腋另钦驾占贡椿士孙鞠镀晓些膝根贺磁坍株俞佃诛夸若辟舟伐蔡率跋喂窿鞭插埔决锗厩龙仟迈百踪捆焦艘掀泽键墟术叫工诵溯毙仰彬癸捌埂考扬涤瓮乘雕林菩菌挣锯贡梭茎晌智幂膜势辕偷谱峻滤兼娄亮赦策豆朵奄缅眷灿腰彪懂递嗅厉王磅之绊筑罐祝窥驰蛇块酉稗废迫淹迅柱琴蔚细起团协纬瞥茬劈紫泳中涸惰墟采疚胰耶弗污薛搪逸廓獭乍趟杭注他千擦穴杰优矽透卖硝搜姐唉眉吻吨恫眷遍茁抨浑咐埂继茁抹桨婶并以践镁棺蛆糕忧况冈绵形志狸钵掖矾厅凝寐减侈滥够漏躺炸文本空间向量模型的主要思想是:将每一个文本表示为向量空间的一个向量,并以每一个不同的特征项(词条)对应为向量空间中的一个维度,而每一个维的值就是对应的特征项在文本中的权重。向量空间模型就是将文本表示成为一个特征向量:其中为文档d中的特征项为的权重,一般取为词频的函数。一般选取词作为文档向量的特征项,最初的向量表示完全是0,1的形式,即如果文本中出现了该词,那么文本向量的该维为1,否则为0。这种方法无法体现这个词在文本中的作用程度,所以逐渐0、1被更精确的词频代替,词频分为绝对词频和相对词频,绝对词频,使用词在文本中出现的频率表示文本,相对词频为归一化的词频,其计算方法主要运用TF-IDF公式,目前存在多种形式的TF-IDF公式。在向量空间模型中,两个文本和之间的相关程度可以用它们之间的相似度来度量。当文本被表示为向量空间模型中的向量时,我们可以借助于向量之间的某种距离来表示文本之间的相似度,通常用向量之间的内积或者用夹角余弦值来表示。根据以上理论的指导,我做了如下实验。选取词作为文