文档介绍：基于遗传算法和LSSVM的网络安全事件
发生频率预测
赵光耀1 邹鹏2 韩伟红1
(1. 国防科技大学计算机学院长沙 410073)
(2. 装备指挥技术学院北京 100029)
摘要:网络安全事件发生频率是非线性变化的,传统时序预测方法难以处理;样本数量少时,人工神经网络等方法预测精度也难以保证。最小二乘支持向量机(LSSVM)是一种基于统计学习理论的机器学习方法,能非常好地解决小样本、非线性问题。本文将LSSVM应用于网络安全事件发生频率的预测,为了达到最佳预测效果,使用一种改进的遗传算法对模型参数进行优化。通过实验验证,改进的遗传算法较简单遗传算法收敛更快,优化效率更高,优化后的模型能够达到良好的预测效果。
关键词:遗传算法 LSSVM 网络安全事件时序预测
1 引言

基金项目:国家高技术研究发展计划(863计划)资助项目(2007AA010502)
作者简介:赵光耀(1982—),男,湖南湘潭,硕士,Email:xudanzgy@
邹鹏(1957—),男,教授,博士生导师,主要研究方向:网络&信息安全、分布式计算
韩伟红(1973—),女,副教授,主要研究方向:网络&信息安全、数据库与数据挖掘
互联网的高速发展为人们的生活提供了极大便利,但随着网络规模的扩大及应用的不断深入,越来越多的网络安全事件影响着网络的健康水平,给人们造成了巨大的财产损失,甚至威胁到国家整体信息安全。及时评估当前网络状态并预测其发展趋势成为急需解决的问题。网络管理员除了掌握网络安全整体态势的发展变化外,还需要了解影响安全态势的各个因素的变化趋势,以便有效地采取防御措施。网络安全事件的发生频率是影响网络安全态势的一个重要因素,它表示单位时间内事件发生的次数,其数据是按时间先后次序排列的数值,可以利用时序分析技术对历史数据进行分析寻找规律,进而预测未来时间段内的发生次数。
网络安全事件的发生与多种因素有关,如攻击者的活动、系统漏洞情况等,其发生次数是非线性变化的,ARMA、灰色系统等传统方法难以处理[1,2];基于神经网络的预测方法处理非线性数据的效果较好,但其结构复杂难以构建,而且当样本数量少时,学习精度难以保证[3]。最小二乘支持向量机(Least Squares Support Vector Machines,LSSVM)是一种基于统计学习理论(Statistical Learning Theory,SLT)的机器学习方法,实现结构风险最小化,能较好地解决小样本、非线性问题[4]。本文使用LSSVM进行网络安全事件发生频率预测,并使用一种改进的自适应遗传算法对LSSVM参数进行优化,确保模型具有最优参数,提高预测准确率。
2 相关研究
目前时序分析与预测技术在网络安全领域的应用主要集中在对网络流量的预测方面,如邹柏贤、刘强应用ARMA模型预测网络流量[5],刘杰、黄亚楼利用BP神经网络预测非线性网络流量[6],都取得了一定的效果。在网络安全事件预测方面,杨尹等对木马规模的预测进行了研究,分析对比了三种模型的预测效果[7],但只局限于对木马事件的预测。本文将时序预测技术推广应用到各类网络
安全事件的预测分析。
使用LSSVM进行时序预测获得了广泛应用,如文[8]将其应用于石油期货价格预测,文[9]使LSSVM对三峡库区小样本水质时序数据进行分析预测,文[10]对火电厂某系统监测数据进行预测,均取得了较好的效果,本文首次将LSSVM应用于网络安全事件的预测。注意到LSSVM的参数选择对性能的影响较大,人们使用多种方法对其进行优化。如文[11]使用交叉验证的方法确定LSSVM参数,文[12]使用遗传算法对LSSVM参数进行优化,并分析了使用遗传算法与交叉验证方法优化参数的性能优劣,证明使用遗传算法能达到更好的效果。本文使用一种改进的自适应遗传算法进行模型优化,在加快收敛速度的同时避免收敛于局部最优解,提高优化效率。
3 LSSVM回归原理
对于给定的样本集,其中为输入向量,为对应的输出值,LSSVM的目标就是找到一个输入空间到高维特征空间的非线性映射,将非线性问题转换为特征空间的线性问题[12],利用(1)式来拟合样本集:
(1)
其中即为非线性映射:,为高维空间中的权值向量,为偏置量。
LSSVM通过求目标函数极小值的方法来确定回归函数,将问题转化为在(3)式约束下求(2)式的极小值:
(2)
(3)
式中是回归误差,其值越大,支持向量越少。>0,称为惩罚因子,表示的是对经验误差的惩罚值,值越大,对经验误差的惩罚越大,模型的预测精度高,但其泛化能力也随之降低。当较小时,对经验误差的惩罚较小,则LSSVM复杂度小,但经验风险值较大,预测精度较低[13]。
引入拉格朗日乘子将(2)、(