文档介绍：大数据架构的安全分析技术研究与实践
卢伟摘要:当前随着信息化技术的不断发展,计算机技术已经被广泛应用到人们的生产生活中的方方面面。其中,计算机技术带来便利的同时,也带来了安全隐患。为此,在信息数据膨胀化的当下,如何进行有判断分析,最终将分析结果进行永久保存。
2 分布式网络构件及数据存储架构设计
上述主要介绍了整体方案设计的关键点,这里进行分布式网络构件、数据存储架构的设计工作。对于分布式采集网络的设计,就要尽可能减少客户端的承担任务,同时还要确保采集网络的准确可靠稳定。基于此,本文在客户端采集网络设计主要采取sys脚本,以便高效的进行数据收集任务,其中采集网络层次主要采取二级分布式网络,并且进行不同层次之间的关联,最终达到采集数据的高吞吐。
数据源
对于数据源而言,主要以简化需求为主要基础来进行采集任务。通常来说,采集数据可以进行分类,即web网络日志访问、操作系统日志、web扫描数据、设备运行状态。其中,对于web、系统日志,可以通过sys完成数据存储,其次采取tcp模式进行flu的处理。设备运行状态等数据,可以借助于系统脚本程序,进行特征文件的匹配,进而获取内存空间、端口信息,之后通过netcat模式进行flu的收集工作。
Flu网络
对于采集层次而言,其主要进行对各系统的安全数据采集工作;汇聚层次则主要对收集到的数据进行汇集,并且将数据分配金各个不同的组件当中,如HDFS、KFA序列。本文所涉及的分布式采集网络主要采取Flu代理,以此实现对系统的日志收集,代理模式具有诸多优势,如其可以以数据规模、资源应用情况为基础,继而有效选择虚拟机、物理节点进行空间分配。代理模式的业务系统端口可以分成以下四种数据,即web网络日志、系统操作日志、扫描日志、设备运行,其可以充分发挥拦截器的作用,对数据进行采集标记,继而进行AS模式机型数据序列化处理,传输到汇聚节点,在此过程中,主要依靠数据关联来实现采集、汇聚层次的数据对接工作。值得重视的是,针对信息数据规模量大的日志数据,这里主要采取布置SG,并且对数据传送方向进行控制,以便最终达到两个层次之间的数据高吞吐。
数据存储架构
对于数据存储架构设计而言,主要采取HDFS分布系统、KFA序列来进行构建,这里需要重点以控制吞吐量和数据动态实时性为主要目标。HFDS文件系统的构建,则要考虑节点架构和数据动态实时同步,以便能够保证信息管理的真实性,同样可实现数据的备份;KFA序列则主要通过控制协调机制对关键节点进行热切换,保障数据的可靠性。
3 安全分析实践
计算架构部署
在规划数据分析实现时,本方案根据不同的吞吐量和分析实时性的分析需求,在安全应用开发上做了Spark批处理分析与SparkStreaming流计算两种编程模型实现。分析程序批量或实时读取各类日志数据,根据行为特征或统计特征检测攻击行为,并进行数据的关联分析,可快速有效的从大量日志数据中检测出针对Web应用系统或操作系统攻击行为并追溯。为保证计算架构的高可靠,采用Spark-Standalone的HA Master的方式实现,各Master节点上的Curater进程实时监控Master的运行状态,并与Zookee