文档介绍：研究生签名:筮名笔研究生签名:笏丝兰泸年多月姗加萨多月偌声学位论文使用授权声明明本学位论文是我在导师的指导下取得的研究成果,尽我所知,在本学位论文中,除了加以标注和致谢的部分外,不包含其他人已经发表或公布过的研究成果,也不包含我为获得任何教育机构的学位或学已在论文中作了明确的说明。南京理工大学有权保存本学位论文的电子和纸质文档,可以借阅或上网公布本学位论文的部分或全部内容,可以向有关部门或机构送交并授权其保存、借阅或上网公布本学位论文的部分或全部内容。对于保密论文,按保密的有关规定和程序处理。历而使用过的材料。与我一同工作的同事对本学位论文做出的贡献均
啪关键词:谋就诰颍就萍觯珼树,文本聚类,近似桑耍尤ü随着科学技术的发展,目前晌A耸澜缟献畲蟮氖菰础U庑┬畔⒃谝趁嫔系分布广且无固定结构,因此面对庞大复杂的信息,人们获得有用的知识显得越来越困难,同时也难以满足用户对感兴趣的知识的渴求。在这种背景下,推荐系统应运而生。它根据用户的爱好或者浏览信息的相关性给用户推荐对象。本文主要研究谋就诰蚣际踉谕疚谋就萍鲋械挠τ谩J紫雀萸叭搜芯砍晒提出一种基于该技术的模型,然后按照该模型的流程依次剖析趁嬷饕D谌莸奶崛谋镜木劾嗪鸵恢指慕耐萍鏊惴āM萍鏊惴ㄗ魑DP秃诵模谌莸奶崛∽魑N谋聚类算法和改进推荐算法的输入,文本聚类则作为推荐算法中的预处理步骤。本文研究诰渫萍瞿P停岷蟱文本的特点,设计出一个针对网站中文本的推荐模芯苛薟页面结构的解析及如何从结构化树中查找到本页面的主要内容。推荐内容的总学习数据库可以通过网络爬虫获取,同时利用深度优先算法构建树。利用剪枝技术剔除无用节点,最后提取出页面主要内容。瑆文本的聚类研究。针对欧氏距离等常用距离的不足,提出近似推土机距离。利用近似距离代替常规距离,使得实体间的度量更加精确。实验采用中国科学院计算技术研究所的文本数据,。芯苛送萍鏊惴ā;诖课谋镜哪谌萃萍鲋还刈⒁趁婺谌荼旧恚杂Φ耐萍龆韵将保持不变。而利用协同过滤算法,加上用户对信息的打分,可以得到用户的爱好倾向;同时利用项目加权,形成推荐目标重要性阶梯变化的加权规则。两者相结合,更能容易找到用户感兴趣的信息,从而形成推荐列表对用户加以推荐。内容如下:型。痵联规硕士论文谋就诰蚣际踉谕惩萍鲋械挠τ醚芯
,.,也鷗撕吼鷆皀⒑紅ⅡⅡ·曲丸琾鷐,鷋伍閏瓼鷗恤鏿舢鶶鲂鬺簉鷇位鷗甎鯽簍唱:玛,.廿畂ⅡⅡ琫璦Ⅱ,【甇瑃膔.,.】ⅱ￡【痵’
猤,鰁晰痗騦,,Ⅳ硕士论文.
目录摘#甀髀邸!趙挖掘技术的推荐原理⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯谕缗莱娴腄树牡到峁菇馕觥本文研究的背景⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯...⋯⋯⋯⋯⋯⋯⋯..本文研究的目的与意义⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..文本挖掘概述⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..谋就诰虻亩ㄒ濉文本挖掘任务⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯文本挖掘的研究现状⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯网站推荐系统概述⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..本文的研究内容⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..本文的组织结构⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.基于诰蚣际醯耐萍隽鞒獭改进的推荐模块的建立⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯本章小结⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯趁娼峁够谋尘凹跋喙毓ぷ鳌网络爬虫原理⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..基于鞯耐承畔⑻崛。.。......⋯....。..。。。。。。。。。.⋯⋯......⋯....。....⋯。。............。..。.....。...。。......
.诮启毒嗬氲腄慕惴ā觯瓹惴ā嗬隷⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯。赪文本内容的聚类研究⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯一谟没У男送萍鲇爰尤ü亓9嬖蛳嘟岷系耐萍鲅芯俊淖芙嵊胛蠢凑雇致谢⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯