文档介绍：第 27卷第 6期计算机应用与软件 Vol
2010年 puterApplicationsandSoftware
Web日志挖掘中会话识别方法研究
张毅
(浙江万里学院浙江宁波 315100)
摘要提出一种新的基于时间阈值会话识别算法,在时间阈值的计算上,既考虑了站点页面内容和结构的差异性,同时也考虑
了访问者的个体差异性。相对于所有用户使用单一先验阈值和使用统计方法结合页面内容确定阈值的方法,方法能更准确地确定
页面访问时间阈值,进行会话识别时具有更高的效率和真实性。
关键词 Web日志挖掘会话识别阈值数据预处理
ONMETHODOFSESSIONIDENTIFICATIONINWEBLOGMINING
ZhangYi
(ZhejiangWanliUniversity,Ningbo315100,Zhejiang,China)
Abstract
value,wehaveconsideredthedifferenceofthecontentandthestructureofthewebsitepages,theindividualdifferenceofvisitorsarealso

thestatisticalmethodinconjunctionwithpagecontents,esstimethreshold
.
Keywords Weblogmining Sessionidentification Threshold Datapreprocessing
③基于日志请求的参考法给连续页面访问时间间隔一
1 会话识别简述个上界Δ,设 p、q为两个连续的请求,p属于会话 S,tp、tq为 p、q
时间戳,如果 q的引用页在 S中,或 tp-tq<Δ,则加入 S,否则 q
Web日志挖掘是将数据挖掘技术应用于 Web服务器日志, 一个会话的开始页。
通过分析日志文件发现用户访问站点的浏览模式。Web日志(2)基于站点结构和参引页的会话识别方法
挖掘的主要步骤有数据预处理、模式识别和模式分析这三个阶①访问历史和参引页识别法[1] 如果一个用户的请求不
段,其中数据预处理是关键和首要任务,据统计数据预处理占能通过参引页上的链接进入,则很可能属于另一个会话。即当
Web日志挖掘全部工作量 50%以上。Web挖掘的预处理包括前请求的参引页没有在前面访问过的页面中出现,则是一个新
数据清洗、用户识别、会话识别和路径补充等步骤,其结果直接的会话开始。
影响着 Web日志挖掘的效率和准确性,而其中的用户识别和会②最大向前参引模型法[2] 即在一个用户会话里