1 / 4
文档名称:

Web 日志挖掘中数据预处理技术的研究.pdf

格式:pdf   页数:4
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

Web 日志挖掘中数据预处理技术的研究.pdf

上传人:799474576 2013/8/7 文件大小:0 KB

下载得到文件列表

Web 日志挖掘中数据预处理技术的研究.pdf

文档介绍

文档介绍:第期计算机技术与发展. .
年月
日志挖掘中数据预处理技术的研究
于飞,丁华福,姜伦
哈尔滨理工大学计算机科学与技术学院,黑龙江哈尔滨
摘要:数据预处理在日志挖掘过程中起着至关重要的作用,直接影响日志挖掘的质量和结果。详细分析了数据预
处理的过程,提出一种改进的数据清洗方法,以提高日志挖掘中数据预处理的效率,并针对日志数据预处理中会话识
别这一重要环节,提出一种改进的会话识别方法。在用户识别后,根据页面内容、站点结构确定页面重要程度,对阂值进
行调整。然后,根据用户对页面内容的兴趣度来删除会话中的链接页面和不感兴趣的页面。实验结果表明,提出的方法
能更准确地确定页面访问时间阈值,得到更为合理有效的会话集合。
关键词:日志挖掘;数据预处理;会话识别;数据清洗
中图分类号: 文献标识码: 文章编号:——一

,,
. .,.. ..,
:/ ,
. , /, ·
.【甜—
. ’...
’.,锄
..
: ;】撇,培;岱;
引言理、模式发现、模式分析。数据预处理的目的就是将
随着信息量的剧增,如何帮助用户快速原始日志记录经过处理形成用户的会话文件,为模式
有效地获取自己感兴趣的信息,已成为网站设计者亟发现算法实施阶段作好数据准备。会话识别是数据预
待解决的问题。解决这个问题的途径之一就是将数据处理中最重要的环节,会话识别的准确与否直接影响
挖掘技术和结合起来,进行挖掘。作为了后续工作是否能得到理想的结果,同时也决定了最
挖掘的一个重要组成部分,日志挖掘就是通过分终挖掘出的知识的可信度。文中提出了一种新的会话
析用户访问时在服务器留下的访问记录来发现识别方法,该方法基于页面内容和站点结构,通过对页
用户访问页面的模式,帮助用户在海量的信息中面的链入、链出数等几个参数的综合,得到每个用户页
寻找感兴趣的内容,实现“信息找人,按需服务”的个性面的访问时间阈值,根据该阈值来切分用户会话,得到
化推荐。对于门户网站、电子商务类网站来说,可以更会话候选集合;然后,根据用户对页面内容的兴趣度来
删除会话中的链接页面和不感兴趣的页面,生成一种
好地发现用户的兴趣所在,提高网站的服务质量,提高
最终有效的访问页面序列,从而为以后的模式发现提
用户的忠诚度,从而提高网站的核心竞争力。
供良好的数据。
日志挖掘过程主要分为个阶段:数据预处
日志数据预处理过程
收稿日期:【砌一—:修回日期:一一
数据预处理是在将志文件转换成数据库
基金项目:国家自然科学基金项目
作者简介:于飞一,男,黑龙江哈尔滨人,硕士研究生,研究文件以后进行的,其目的是把日志转化为适合进
方向为数据挖掘;丁华福,硕士生导师,教授,研究方向为数据库、数行数据挖掘的可靠的、精确的数据。这个过程主要包
据挖掘。括个阶段:数据清洗、用户识别、会话识别、路径补
· · 计算机技术与发展第卷
充和事务识别引。数据预处理过程见图。用户所使用的代理。与纵向缩减相对应,将这种缩减
日志记录中属性的方法定义为
横向缩减列缩减。横向缩减
只会减少日志记录数据表中属
性列,不会缩减日志记录的行
数。
纵向缩减为数据预处理的