文档介绍:中国民航大学
硕士学位论文
基于关联规则挖掘的个性化网站设计与实现
姓名:高小梅
申请学位级别:硕士
专业:计算机应用技术
指导教师:冯兴杰
20070201
摘要随着互联网的迅速发展,上的信息呈爆炸式增长,相对于巨大、无序的网络信息空间,传统网站服务不能满足不同背景、不同目的和不同时期的访问者请求,每个用户为了找到真正感兴趣的信息需要耗费大量的时间和精力。因此,鲂曰晌览建议,它通过以下步骤来实现:首先收集和存储站点访问者的信息,然后对信息做分萃诰蚴鞘迪諻个性化的有效途径。论文在研究了萃诰蚝蚖个性化基础上,设计了一个个性化网站,通过利用关联规则算法对罩竞妥⒉嵊没У男畔进行挖掘产生的规则,实现了以对注册用户进行个性化内容推荐、个性化链接推荐和优化网站的拓扑结构为目标的一个个性化网站。主要完成了以下几个方面的工作:杓埔桓龈鲂曰荆占舜罅康淖⒉嵊没畔⒑蚖日志数据,为挖掘算攵允占氖莶捎每焖貯算法和增量式惴ń辛送诰颉M过挖掘发现了用户访问站点中页面之间的一些访问规则,为实现网站个性化做准备。了:W⒉嵊没萍龈鲂曰趁妫优化网站的拓扑结构和建立导航链接。关键词:个性化网站;罩就诰颍还亓9嬖颍辉隽渴紸算法了一个研究热点。鲂曰匆桓鯳网站根据发现的用户喜好,为用户定制观看的内容或者提供浏析,在分析的基础上在适当的时间将适当的内容提交给每个访问者。法实施做准备。诙酝诰虺龅墓嬖蚪猩秆∮敕治龅幕∩希τ玫酵靖鲂曰校迪中国民航丈学硕士学位论文
’..瑆瑆甌瓹甶甎瑃瓵;Ⅱ
日期:坳王蠢:掏蠢,蛏中国民航大学学位论文独创性声明中国民航大学学位论文使用授权声明金也不包含为获得中国民航大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志中国民航大学、中国科学技术信息研究所、国家图二挣馆有权保留本人所送交学位论文的复印件本人声明所甓交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。研究生签名:和电子文档,可以采用影印、缩印或其他复制手段保存论文。,允许论文被查阅和借阅,可以公布ǹ论文的全部或部分内容。论文的公布ǹ授权中国民航大学研究生部办理。导师签名日期:
第一章绪论研究背景和意义自世纪年代初互联网开始发展,在近年间已经发展成为人们获取信息的一个经济、社会、文化、教育以及娱乐等许多方面的重要组成部分,是我们工作和生活中不互联网上的信息资源是大量的、多种多样的并且是不断更新的,但是针对一个用户来说互联网上众多复杂的信息中只有很少一部分对其来说是感兴趣的,大部分是无用要的信息,从而找到自己真正感兴趣的信息是一个既浪费时间又浪费精力的过程,以在互联网上搜索需要的信息为例,当用户输入要搜索的关键词后,搜索后返回的结果往往经越来越难以适应迅速增长的信息资源。因此从网站管理者角度来说要考虑怎样使用户从网站中有效快速的获得所需的信要一种能够根据用户的自身的特点自动组织和调整信息的服务模式来适应用户的需要,息等这些问题就成为了现在急需解决的问题。已经有很多人提出了使用鲂曰椒来解决当前的问题,鲂曰褪俏L囟ǖ挠没е付ㄌ囟ǖ腤内容和应用,容开发人员基于某些条件为特定的个人或用户组提供感兴趣的信息或应用;是用来帮助用户在大量的信息中寻找针对当前用户最感兴趣的内容。鲂曰丫坏缱由涛裢站、电子图书馆等众多领域所接受,并成为了他们的一个重要功能,它提高了访问效率,对于不同层次、不同爱好和使用目的的浏览用户提供个性化的信息服务。使镜愀鲂曰衷谟泻芏嗳颂岢隽撕芏嘀址椒ǎ渲卸杂没巳さ奶峁┲饕J来自于对用户历史行为的分析,通过分析用户的历史数据,生成同当前用户的行为最相近的一些信息,并把这些信息当成是用户最感兴趣的项推荐给用户。痌&务器每天产生大量的日志,其中蕴涵了有关用户在网站上的行为的丰富数据,分析这些数据能够发整理和分析,以数据挖掘技术应用于大规模荩⑾钟行У摹⑿掠钡摹⑶痹谟杏重要途径。现今已经是一个拥有数亿用户,数十亿页面的巨大信息空间,同时成为我们可缺少的部分。的。所以随着信息继续增长,人们就必须花费大量的时间去搜索、浏览自己需包含了大量与用户兴趣不相关的甚至是过时的信息。然而在这种情况下一般的网站没有考虑用户的差异,使得每个用户面对同样的信息空间,所以这种用户寻找信息的方式己息,改进网站的组织结构和服务,发现潜在的用户群体等问题;从用户角度来说用户需可以快速、有效的访问系淖试矗醵滩檎倚畔⒌氖奔洌栏嘤没Ц行巳さ男现有意义的隐藏的规则,但是虽然臣务器日志记录了作为分析依据的用户访问数