文档介绍：web数据挖掘的处理流程
对web数据的处理可以分为数据获取、数据预处理、数据的转换集成、知识发现和模式分析几个过程,如图6-2所示。
(1) web数据的获取
Web数据的来源包括:log日志,记录了用户的访问页面、时间、IP地址等主要信息;web内容,用户所浏览的文字、图片等;用户注册信息,web站点采集的用户输入的自身信息;web结构数据,指web本身在频道、链接上的布局。
Web数据的获取方法有:
a) 服务器端信息。web服务器端产生3种类型的日志文件:Server logs,Error logs,Cookie logs,这些日志记录了用户访问的基本情况,是Web使用挖掘中最重要的数据来源。服务器日志(Server logs)记录了多个用户对单个站点的用户访问行为。错误日志(Error log)记录存取请求失败的数据。Cookie logs用于识别用户和用户会话。
b) 客户端的数据收集。用户客户端log记录了该用户对各个网站的访问情况,比服务器端Log数据更能准确地反映用户的访问行为,但由于隐私保护,需要用户同意才能获得。
c) 代理服务器端的数据收集。的所有用户对各个网站的访问行为。但是由于Cache的大量存在,使得代理服务器中的log数据不能准确地确定用户和时间,采集信息也不全面[50]。
(2) web数据的预处理
Web数据的预处理包含数据清洗、用户识别、会话识别和事务识别等过程。
a) web数据的清洗
数据的清洗,是指删除Web日志中与挖掘任务无关的数据。将有用的web日志记录转换为适当的数据格式,同时对用户请求页面时发生错误的记录进行适当处理。
在web日志中,包含许多对挖掘任务毫无意义的数据。数据清洗的目标是消除冗余数据,方便于数据分析。常见的数据清洗方法包括:删除日志文件中后缀为gif, jpg, jpeg的自动下载项;删除访问返回错误记录等。数据清洗操作应结合数据挖掘任务和网站特点来进行,取决于最终的挖掘目标。
b) web用户识别和会话识别
用户识别,指分离特定用户的访问日志。原来的技术多是根据IP地址来识别用户的。动态IP、本地缓存、代理服务器及防火墙的存使得根据仅依据IP地址来识别用户变得不太现实。研究人员提出了以下方法:
i) 通过用户注册信息来识别用户。此种方法只适用于web站点的注册用户。
ii) 通过Cookie技术。在客户端写入Cookie,可以探查到用户的重复访问。但它需要依赖用户的紧密合作,因为它涉及到了用户的隐私,如果用户不使用或删除Cookie,则这种方法无法实施或者造成访问记录的不连续。
iii) 基于日志/站点的方法,并综合启发式规则作为指导。比较常用的一些启发式规则是:1)不同的IP地址代表不同的用户;2)当IP地址相同的时候,默认不同的操作系统或浏览器代表不同的用户;3)在IP地址相同、用户使用的操作系统和浏览器也相同的情况下,则判断每一个请求访问的页面与访问过的页面之间是否有链接。
会话识别的出发点是即使相同的用户,他的访问兴趣也是随时间发生变化的。会话识别的目的就是将用户的访问记录分为若干单个独立的会话进程,来挖掘会话间的知识信息。
假如用户会话表示为< userid, {(pid1,time1),…,(pidn,timen)}>,pid表示用户