文档介绍:北京邮电大学
硕士学位论文
一种WEB日志数据挖掘系统的设计与实现
姓名:任晓霞
申请学位级别:硕士
专业:计算机科学与技术
指导教师:邝坚;房鸣
20080220
一种罩臼萃诰蛳低车纳杓朴胧迪摘要随着际醯牟欢戏⒄购陀τ茫琖站点产生的信息也随之飞速增长,如何开发和利用镜闾峁┑姆岣恍畔⒆试闯晌H嗣瞧毡楣刈的问题。镜闾峁┑姆岣恍畔⒆试刺逑衷诹礁霾忝妫阂环矫妫琖站点自身提供了丰富的信息内容;另一方面,人们对镜闼吹呐哟的访问数据资源、复杂的数据结构和使用者的行为目的产生了更多的构想。如何利用镜愕南钟蟹梦市畔⑻岣哒镜愕男阅芎透玫匚S没Х务,成为计算机应用领域的热门话题之一。本文以罩疚L卣髡箍Q究,在分析梦适萁峁沟幕∩希隬数据挖掘方法,针对计算机科学与技术学院的镜悖杓撇⑹迪至艘桓鎏囟ǖ姆治鱿低常得了一些有价值的分析结论。萃诰蚴墙萃诰蚍椒ㄔ擞糜赪数据,提取隐藏其中的、有用的、新颖的模式或知识发现的过程。其中一个主要分支是罩就掘,它旨在从大量访问者的访问历史记录中,挖掘网站的频繁使用模式、用户访问行为模式、具有相似行为的用户群等信息,使人们能够充分了解镜愕氖褂们榭龊褪褂肳站点的用户行为模式,从而对镜优化组织,更好地为用户提供服务,提高镜愕姆梦柿亢托阅堋北京邮电大学硕上学位论文;《一种罩沂萃诰蛳低车纳杓朴胧迪帧
基于以上背景介绍,本文以学院网站服务器日志为研究素材,给出了一个罩臼萃诰蛳低车慕饩龇桨浮Mü鞠低常唤隹梢曰竦学院网站的基本统计信息,如站点的使用情况和服务器的响应情况,而且可以获得网站用户的访问模式和用户的聚类群信息。本文采用的聚类算法,在总结已有系统开发经验的基础上,从简洁、效率、实用的角度出发,对算法提出了改进的思路,使用会话访问顺序相似度作为聚类度量标准和字典向量存储,保证了聚类的准确度和存储效率。本文首先介绍了课题产生的背景和国内外研究现状。其次介绍了日志挖掘的处理模型和数据预处理各阶段的过程。再次介绍了本课题相关的算法。最后结合本课题的算法,给出了系统的详细设计。。关键词:罩就诰颍J绞侗穑捣北槔J剑劾喾治北京邮电大学硕士学位论文:‘一种罩臼萃诰蛳低车纳杓朴胧迪帧
口Ⅵ吧瑃,:《一种罩臼萃诰蛳低车纳杓朴胧迪帧
甀,甒.,,痵,.,.瑄’,瑆北京邮电大学硕士学位论文:‘一种罩臼萃诰蛳低车纳杓朴胧迪帧
,...琭,北京邮电大学硕士学位论文:‘一种罩臼萃诰蛳低车纳杓朴胧迪帧
导师签名:獇日期:美级:::本人签名:丝坚宣本人签名:竺璺茎重。日期:』至翌尘二互二日期:型堑二本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不申请学位论文与资料若有不实之处,本人承担一切相关责任。留并向国家有关部门或机构送交论文的复印件和磁盘,允许学位论文被查阅和借阅;学校可以公布学位论文的全部或部分内容,可以允许采用影印、缩印或其它保密论文注释:本学位论文属于保密在一年解密后适用本授权书。非保密论独创性虼葱滦声明包含其他人已经发表或撰写过的研究成果,也不包含为获得北京邮电大学或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。关于论文使用授权的说明学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规定,即:研究生在校攻读学位期间论文工作的知识产权单位属北京邮电大学。学校有权保复制手段保存、汇编学位论文。C艿难宦畚脑诮饷芎笞袷卮斯娑文注释:本学位论文不属于保密范围,适用本授权书。北京邮电大学硕:£学位论文:‘一种臼萃诰蛳低车纳杓朴胧迪帧.
第一章绪论弟一早研究背景珀下匕随着计算机互联网技术的不断发展和应用,镜阋哑占暗饺死嗟母鞲錾镜愕囊G笤嚼丛礁摺庞大的数据资源、复杂的数据结构和使用者的行为分析以罩疚L卣鳎峁购品钡腤访问数据,依赖的主要是数据挖掘技务器上记录多条信息且各记录之间并无直接的关联关系,因此分析;罩揪托枰式的决策支持过程,发现的知识可被用于信息管理、查询优化、决策支持、过程控制学科,融合了数据库技术、人工智能、机器学习、神经网络、统计学等多个领域的理大量访问者的访问历史记录中,挖掘网站的频繁使用模式、用户访问行为模式、具有点的用户行为模式,从而对镜阌呕橹透玫匚S没峁┓瘢岣遅角落,金融、远程教育、交通、工业、电子商务、搜索引擎、娱乐、科技等领域无处不在,无时不用。镜阍诖嗣欠岣恍畔⒑图ù蟊憷耐保绾慰7⒑屠用访问镜闼姆岣恍畔⒆试淳统闪巳嗣瞧毡楣刈⒌奈侍狻<又嗣嵌目的不同,利用镜阒械南钟行畔⑻岣咄镜男阅芎透玫匚?突Х瘢晌计算机网络应用领域研究的热门话题之一。术。罩炯锹剂擞没У囊幌盗械慊髁餍畔ⅲ杂谟没У囊淮吻