文档介绍:⑧与预处理技术研究面向多站点罩就诰蛑械氖莶杉重庆大学硕士学位论文重庆大学计算机学院学生姓名:张艳华跹指导教师:张玉芳教授专业:计算机系统结构学科门类:工学二欢晁脑
!猈篊’.,
摘要关键词:罩就诰颍莶杉菰ご恚萸謇恚琀肭重庆大学硕士学位论文中文摘要随着互联网和信息技术的快速发展,特别是娜蚱占埃沟肳上的用户数目和信息量都在不断地增加。这样就产生了两方面的主要问题:一方面是如何让站点提供者通过分析用户的浏览行为,发现用户的浏览模式和兴趣爱好,并为其提供个性化推荐,以获得更多的用户青睐和商业价值。另一方面是如何让用户能够及时地从海量的信息中获取到感兴趣的、有价值的信息,从而降低信息过载带来的迷航问题,提高信息检索效率。通过将数据挖掘技术应用于罩挖掘,并根据不同挖掘应用的需求和罩镜奶匦裕源撤椒ń欣┱购透进,可以解决这些问题。要进行罩就诰蚴紫纫2杉喙氐娜罩臼莶⒍云浣性ご怼4车罩就诰虻氖莶杉话阍诜衿鞫恕⒖突Ф恕⒂τ梅衿鞫撕痛矸衿端进行。不同的数据采集方法不仅在数据源位置方面不同,而且在可用数据的种类、被收集的数据段和其实现方面都不尽相同。数据预处理主要是通过数据清理和用户识别等操作,将能够精确反映用户浏览行为的数据提取出来并转换为挖掘算法可识别的格式,其结果直接关系到后续挖掘的质量。数据采集和预处理这两方面的工作占据了罩就诰虻暮艽笠徊糠郑荳目志挖掘的基础和关键,也是日志挖掘研究的重难点。通常的数据采集和预处理都是面向单站点环境进行,而本文则是面向多站点的罩就诰颍虼艘延械氖莶杉椒ň筒辉偈屎稀NA四芄徊杉蕉嗾镜下的用户浏览行为数据,本文提出了一种通过捕获协议数据包的网络嗅探采集方式。同时,面向多站点环境下采集到的数据由于具有海量、多样、异构、动态变化等特性,数据预处理工作也就不同于以往,特别是增加了数据清理的难度。针对这一问题,通过分析请求的特点本文提出了一种基于页面引用和时间关系的数据清理方法。最后,在局域网平台上通过多次实验来考察本文提出的网络嗅探数据采集方法和基于引用和时间关系的数据清理方法的有效性。采用精确率、召回率和量值等指标分析实验数据。结果表明本文提出的面向多站点下的数据采集和预处理方法是有效可行的。
猈,猈重庆大学硕士学位论文英文摘要...瑃瓵,琣甌,,籵,..,,,,,琤琣’
猈篧重庆大学硕士学位论文英文摘要,甌,甌.,珼,
目录中文摘要⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..英文摘要⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.髀邸萃诰蚣跋喙丶际酢罩臼莶杉朐ご怼研究背景和意义⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯··研究现状⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯·研究内容及组织结构⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯··数据挖掘⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯·..萃诰虻墓獭诰颉·诰蚨ㄒ濉诰蚍掷唷诰莸奶氐恪诰莸闹饕Sτ谩罩就诰颉罩就诰蚋怕邸恐就诰蛄鞒獭数据包捕获⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯··.⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯面向多站点采集与预处理存在的问题⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯·.
笛榻峁胺治觥芙嵊胝雇致谢⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯参考文献⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯附录⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯罩臼莶杉数据清理⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯本章小结⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯实验过程⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯实验分析⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯髡咴诠ザ了妒垦黄诩浞⒈;挥牒喜ⅰ.谝煤褪奔涔叵档那謇矸椒ā实验评价标准⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯进一步的工作⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯
髀研究背景和意义随着互联网技术的快速发展,已成为一个巨大的、分布广泛的全球性信息服务中心,其信息量正以指数级的速度迅猛增长和扩展。同时,互联网的迅速发展给人们的学习、工作和生活