文档介绍:各位专家、老师大家好,我叫于淼,我的导师是王全民副教授,我的论文题目是:基于系统日志的用户行为挖掘取证的研究与实现。下面,我将为各位专家老师介绍一下我的论文,以及我研究课题的主要内容和工作过程等。
我要讲述的主要有三个内容,首先,是课题研truction):证实嫌疑人
在什么时间、用什么方法、实施过什么操作。
犯罪主观方面——犯罪动机重构
其中最为重要的当属犯罪主体和犯罪客观方面,因为通过对这两个法律要件的重构,使我们可以大致了解嫌疑人的一些特点,根据这些行为特征可以有助于缩小侦查范围,迅速侦破案件。
在计算机取证中继承传统的犯罪轮廓调查的主要思想,可以很大程度帮助调查人员确立调查策略,协调搜索资源,缩小证据可能存在的范围。尽管计算机取证和传统取证在某些方面存在不同,然而它们基本的调查方法和目标是一致的。而帮助我们实现行为重构的正是计算机系统中的日志文件。因为日志文件中会记录有大量关于使用该系统的时间和事件信息。而且这些记录之间往往存在着联系,对它们进行分析就可以发现使用者在什么时间、用什么方法,对系统实施过什么操作。进而就可以归纳总结出一般的行为模式,当发现与一贯模式相悖时就列为侦查重点,这对于有效利用资源,迅速侦破案件是很有帮助的。
为什么使用数据挖掘技术
计算机犯罪的特殊性和日志文件的特点决定了取证过程中所获得的数据量一定是非常庞大的,因此如何在这些大量的、繁杂的数据中找到有用的信息,重构行为,缩小侦查范围成为亟待解决的问题。
实际上,我们对日志文件的分析是一个推理过程,关键就是利用多条不同记录之间的某些共同点或约束关系,将不同的记录组织在一起形成综合的结论。当前研究的重点就是构建推理规则,即如何将取证中使用的各种分析原理和约束条件提炼成推理规则,并由计算机自动使用这些规则进行推理形成结论。在构建足够多的推理规则后,未来的研究重点将是如何实现计算机自动化推理。
数据挖掘作为一种特定应用的数据分析过程,能够从数据中提取人们感兴趣的可用信息和知识,并将提取出来的信息和知识表示成概念、规则和模式,所以我们采用数据挖掘技术对大量的日志文件进行分析,作为发现和重构行为模式的重要事实依据。
现实世界数据是不完整的(有些感兴趣的属性缺少属性值,或仅包含聚集数据),含噪声的(包含错误或存在偏离期望的孤立点值),并且是不一致的(例如,用于商品分类的部门编码存在差异),所以在进入数据挖掘过程之前数据预处理必不可少。[35]
为对用户行为模式进行尽可能准确的描述,结合取证与数据挖掘的特点,对计算机日志进行数据预处理主要包括下列操作过程。
数据采集:关联规则挖掘的对象确定为某台PC机中的某个用户在近半年来的行为记录日志。包括系统日志及应用程序日志。其中系统日志包含24192条数据记录,应用程序日志包含4824条数据记录。这两种日志记录将作为关联规则挖掘以及序列模式挖掘的样本进行挖掘和研究。
数据清洗:目的在于去除日志信息数据中的噪声数据和无关数据,处理遗漏数据和清洗脏数据,去除空白数据和在知识背景上的白噪声,考虑日志信息的时间变化和它们的数据变化,主要是对重复数据和缺值数据进行处理,去除重复数据记录,填补缺省数据。
数据转换:在日志信息中,有些属性域需要做一定的变换处理,使得挖掘的结果能够合乎我们的****惯逻辑和表达,如在日志记录中,时间维的属