文档介绍:禄稹审云本学位论文作者完全了解稚大号有关保留,使用学位论文的规定,,也不包含为获得喀簧锣夯号或其他教育机构⋯一~⋯少年戮扇签字日期:加年耭乜日阥月日研究成果。据我所知,除了文中特别加以标注和致谢的地方外,.’。’,允许论文被查阅和检索;可以采用影印、缩印或扫描等复制手段保存、:工作单位:通讯地址:导师签名:签字日期:电话:邮编:⋯’
渐失去方向,用户如何从这巨大的信息量当中寻找出很小的一部分感兴趣的信息,商家如何改善自己的经营方式,网站如何改善自己的站点,这些问题的提出就引出了一个新的研究方向,即诰虻难芯浚鳺挖掘当中,最重要的一个研究方向即为罩就诰颉K絎日志挖掘就是将罩臼引入到传统的数据挖掘当中,挖掘出知识的过程。罩臼荼旧碛氪呈据相比有一些独特的特点,这对有关的研究工作也带来了一定的挑战。目前,对于诰颍绕涫荳日志挖掘的研究越来越多。本文通过学习大量的文献资料,系统的介绍了罩就诰颉⒕劾嗉际醯基本理论,并针对部分算法的缺陷提出改进方法,并通过实验进行论证。首先,介绍了当前的研究现状,分别包括国内和国外的研究情况,相比之下,国外的研究比较成熟,而国内主要的研究依然处于理论研究阶段。然后,介绍了数据挖掘以及罩就诰虻睦砺勰谌荩包括挖掘的过程以及挖掘的数据特点等。其次,重点介绍了罩就诰虻氖菰ご淼睦砺壑J兑约澳壳暗难芯方法,数据预处理的过程分别为数据清理、用户识别、会话识别、路径补充和事务识别。针对目前的研究情况,提出了一种预处理的改进方法,在会话识别时,使用用户访问树的方法,在不知道网站拓扑结构的情况下,依然能够得到用户的会话,并且可以省略掉路径补充的步骤,直接得到用户的事务。在事务识别过程当中,对事务当中的每个页面进行分类并记录,分别记为导航页面和内容页面,如果事务中所有的页面均为导航页面,将其看作是无效事务,将其去除,大大的减少了数据库的容量,但并不减少数据的信息量,这对后期的研究工作也是非常有意义的。最后,详细介绍了聚类分析的相关理论知识,并给出了页面兴趣度、相似度的定义,然后重点介绍了甿算法,并对其优缺点进行分析。针对算法原有的初始中心点的选择问题、噪声数据的影响等提出改进方法,使用一
种模糊的划分原则将整个数据集分类,再使用密度的方法对这个划分进行调整,从而得出龈呙芏鹊那颉U庋贸龅腒值比依靠经验获得的蹈侠恚并从这龈呙芏惹蚍直鹧≡褚桓龅阕魑3跏贾行牡悖獗人婊≡竦腒个初始中心点得到的聚类结果更稳定、更加合理。同时,在对均值计算时引入权重,目的是为了减小噪声数据对均值点的确定的影响。计算加权均值得到的质心能够更加靠近簇的距离较近的数据堆,从而削弱了包含孤立点的簇计算质心时偏离数据堆的情形。然后利用标准数据集进行实验,验证了改进算法的有效性,最后将此算法应用到罩臼莸敝校杂没挛窠芯劾啵玫降木类结果中簇内相似度更高,要优于原始的惴ǖ玫降木劾嘟峁最后,对本文进行总结并提出在研究过程所面临的部分问题但还没有进行深入研究的地方,提出了未来的研究方向。关键词:罩就诰颍皇菰ご恚皇挛袷侗穑挥没嗨贫龋痪劾基于罩就诰虻木劾嗨惴ㄑ芯安徽大学硕士学位论文
瑄甌甌.....鄏,,甀..甈痶琤,瑃瑃,..
.,瓵,,篧;.,甈、瑆.;安徽大学硕士学位论文基于罩就诰虻木劾嗨惴ㄑ芯籺‘
目豕摘要⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯第滦髀邸论文的研究背景与意义⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..国内外研究动态⋯⋯⋯⋯.⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯。.⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.数据挖掘⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.第耊日志预处理⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.