文档介绍:摘要罩臼萃ü庑┧惴ń性ご砗螅J莶挚獾慕⑻峁┝丝煽康淖急罩就诰蚴莣挖掘中重要的研究课题之一。罩就诰虻难芯慷韵是罩臼荨4臃衿鞯墓鄣惴治觯诰虻亩韵笫翘峁┓竦耐镜男畔ⅲ挖掘结果可以帮助改善网站的设计。从用户的点击序列分析,可以发现一个用户的使用信息,可帮助实现网页的预存取和缓存。本文所要研究的罩就诰蛟谕居呕械挠τ镁褪嵌詗使用日志这些半结构化的数据进行预处理后,根据甅岢龅牡慊流数据仓库模型,并结合就业网站的实际数据,创建了适合实例网站的点击流数据仓库模型,然后运用械木霾呤髂P徒惺萃诰颍最后对数据挖掘结果进行数据分析,给网站的管理者提供网站结构优化的建议。本文主要在如下的方面做了主要的工作:首先为数据预处理的数据导入、用户识别和会话识别部分提供了详细的算法,数据。其次在点击流数据仓库模式建立的问题上,根据前人提供的标准点击流仓库模型,提出了适合实例网站的数据仓库逻辑模型,并在此逻辑模型的基础上,建立相应的物理模型。最后将上述的数据预处理算法和数据仓库模型应用在就业网近两个月的访问日志中,然后运用决策树模型分析数据源的各个维,并将分析结果在网站结构的调整中进行应用。关键词:褂猛诰颉日志预处理、点击流数据仓库、网站优化蚆中文摘要
.“眞英文摘要...,,,:瓼,’瑃籆:
⋯一:锻稀搿谚榉雠娟垡栽凇成文作者签每褐资月日大连海事大学学位论文原创性声明和使用授权说明原创性声明:塑业旦盔揎坦查圆塑垡丝主的堡童生廑旦:。除学位论文版权使用授权书本人郑重声明:本论文是在导师的指导下,独立进行研究工作所取得的成果,论文中已经注明引用的内容外,对论文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本论文中不包含任何未加明确注明的其他个人或集体已经公开发表或未公开发表的成果。本声明的法律责任由本人承担·本学位论文作者及指导教师完全了解“大连海事大学研究生学位论文提交、版权使用管理办法”,同意大连海事大学保留并向国家有关部门或机构送交学位论文的复印件和电子版,允许论文被查阅和借阅。本人授权大连海事大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,也可采用影印、缩印或扫描等复制手段保存和汇编学位论文。不保密囚硬请在以上方框内打“√”撰写成博士,硕士学位论文,#
第滦髀论文的选题背景和研究意义近年来,随着际醯姆伤俜⒄褂牍惴菏褂茫チM殉晌H嗣腔袢⌒畔的重要来源,网络信息的迅速增长和网站结构的日益复杂,在给人们带来丰富信息和极大便利的同时,也随之产生了一些亟待解决的问题:一方面,每个用户都会有自己的需求和偏好,通常在获取有用信息时,也被动地接受了许多无用信息,浪费很多时间。因此用户希望站点根据不同的用户浏览模式提供不同的服务,感觉到网站真正的在为自己服务。另一方面,网站经营者面临着诸多问题,如何发现用户的需要和兴趣,并以客户为中心修改网站,从而提高用户的满意度:如何发现系统性能瓶颈,找到安全漏洞;如何查看网站流量模式以及找到网站最重要部分等等。衿魅罩臼且桓鼋峁够虾玫募锹技4媪擞没Х梦蔠各页面的情况,这样旨在使用数据挖掘技术从用户与网站的交互信息中获得用户使用模式的罩就诰蚣际跤υ硕经过时间的积累,衿髦械膚日志文件将越来越大,其中包含客户的信息越来越多。网站经营者希望有大量的分析工具集来进行及时地分析用户的访问动机、了解网络通信情况,并进一步改进系统的设计。魑D壳癐上信息发布的主要渠道,已经显示出巨大的商业价值和应用潜力。通过挖掘罩纠捶⑾钟没Х梦誓J郊靶形#治稣镜愕氖褂们况,可以实现用户聚类、页面聚类和发现频繁访问路径,可以为网站的重构明确指引方向,同时为网站提供了更多的便利,协助管理者优化站点,构造合理的服务器,并让客户和企业内部用户能实现高效访问,进而为用户提供个性化服务。帮助企业更好地做出商务决策,可以说它的重要性是不言而喻的。罩就诰蛟谕居呕械难芯坑胗τ<br教授嗳颂岢鲆恢只贜元P偷在没Х梦市畔⑼诰虻睦砺垩芯糠矫婀谕庋д咭步辛舜罅垦芯抗康热耸紫忍岢鼋萃诰蚣际跤τ糜诘缱由涛的环境下,以挖掘市场智能。挖掘的对象不仅包括罩竞蛍页面,还包括市场数据,并且给出了在电子商务环境下,应用罩就诰虻囊桓鲎艿南低晨架。取将罩臼荼4嫖J萘⒎教澹缓笤谄渖现葱蠴母种操作中发现用户的访问模式。通过对镜愕娜罩炯锹冀性ご恚罩数据组织成传统的数据挖掘方法能够处理的事务数据形式,然后利用传统的数据挖掘方法进行处理,该系统已经实现了关联规则、分类以及时间序列分析。西安交大陆丽娜教授【等人,采用基于事务的方法,研究罩就诰蛟ご砑坝没访问序列模式挖掘方法,提出了一种基于扩展有向树框架进行用户浏览模式识别预测用户访问请求的框架,从而对用户未来可能进行的梦是肭蠼性げ狻目前国内外基于罩就诰虻难芯抗ぷ鞔笾驴煞治R韵氯唷以分析镜阈阅芪D勘辏饕4