文档介绍:第卷第期计算机技术与发展. .
年月.
基于决策树的流量识别方法研究
李晟锴
安徽理工大学计算机科学与工程学院,安徽淮南
摘要:针对新型业务采用净荷加密和伪装端口等方法来逃避检测的问题,提出了一种基于决策树的流量识别
方法。该方法将决策树方法应用于网络流量识别领域,以适应网络流量的识别要求。决策树方法通过利用训练数据集中
的信息熵来构建分类模型,并通过对分类模型的简单查找来完成未知网络流样本的分类。
算法相比较、算法,处理相对简单且计算量不大,具有较高的数据处理效率和分类精度,能够提
高网络流量分类精度,更适用于流量识别。
关键词:决策树;流量识别;特征选择;分类精度
中图分类号: 文献标识码: 文章编号:——一
,,,
:。
.
.
.,。
.
. .
:; ; ;
引言于加密后的数据包,净荷特征识别法也无能为力。
网络流量的精确分类是分析网络用户行为、检测近年来,基于机器学习的网络流量识别方法表现
网络异常行为和提高服务质量等行为的前提和基出了较高的准确率,因此得到了越来越多研究者的青
础⋯。应用的飞速发展,其流量爆发式的增长和睐。文献~研究神经网络技术应用于网络流
不加限制的带宽使用,极大地增加了网络负担,使网络量分类,其中文献研究了神经网络技术,分析
拥塞现象日趋严重。随着各种业务的剧增,以流量的特征,构建网络,通过对该网络的足够
流量为主要对象的网络业务感知已成为目前研究训练,得到相关的测试结果;文献研究了基于自组
的热点。近期涌现的新型业务采用净荷加密、伪织网映射网络的流量分类算法,自组织映射网络算法
装端口和分块传输等方法来逃避检测识别,增加了模拟生物神经元,通过自组织行为对数据进行分类学
业务感知的难度。由于对端口号规定的习,实验表明,该无监督型算法能够对新流量进行自动
非强制性和有限性,越来越多的应用采用非规范的端识别,提高了流量识别的准确率;文献利用神经网
口,有些应用甚至使用动态端口和冒充特定端口的方络的自学习能力和模糊逻辑的动态性和及时性等特
法来伪装自己,使得端口识别法不再有效。净荷特点,将模糊理论和神经网络相互混合,研究在线识别
征识别法表现出了很好的网络流量识别能力,但由于流特征的方法,
涉及到能够窥视个人隐私的问题而受到质疑,同时对为了适应流量数据庞大、应用属性动态变
化的特点,利用机器学习方法处理流量分类问题已成
为当前网络测量领域内一个新兴的研究热点¨。在
收稿日期:~一;修回日期:
基金项目:安徽省高等学校自然科学基金重点项目使用机器学习方法处理流量分类的问题时,研究的对
作者简介:李晟锴一,男,硕士研究生,研究方向为计算机网象是一组具有相同元组源、目的、源端口、目
络、人工智能。的端口、传输层协议取值的分组序列,即网络流
· · 计算机技术与发展第卷
Ⅲ。研究人员通过提取网络流的统计属性,将常不现实的,因为其中超过项的属性通过傅里叶
网络流抽象为由一组统计属性值构成的属性向量,实变换技术得来,如若全部计算,则负载过于沉重。此
现由流量分类向机器学习问题的转化。外,在实际网络环境中大部分的属性与分类的