1 / 8
文档名称:

大数据下源代码同源性安全分析探讨.doc

格式:doc   大小:23KB   页数:8页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

大数据下源代码同源性安全分析探讨.doc

上传人:小点 2019/7/5 文件大小:23 KB

下载得到文件列表

大数据下源代码同源性安全分析探讨.doc

相关文档

文档介绍

文档介绍:大数据下源代码同源性安全分析探讨-安全生产论文大数据下源代码同源性安全分析探讨 陈慧(山东英才学院信息工程学院,山东济南250104)【摘要】大数据时代的到来,将安全带入了一个全新、复杂和综合的时代,利用大数据进行代码同源性安全分析,人们可以分析大量的潜在安全事件,通过对海量大数据的分析,可以挖掘发现大量新的网站攻击特征、网站漏洞,以及分析同源的特种木马等。关键词 大数据;同源性;安全0 引言“大数据”作为时下最火热的IT行业的词汇,随之而来的数据仓库、数据安全、数据分析、数据挖掘等围绕大数据的商业价值的利用逐渐成为新的利润焦点[1]。现在数据从绝对量来说正在迅猛增长,每年的增速是50%,数据变化速度也非常快,它们来自于不同的源。大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。随着互联网的发展,资源的共享日益增多,人们可以得到的资源也越来越多,十年前,开发人员可以使用免费的操作系统和一些简单的数据库。五年前,他们可以用上“非常不错的免费数据库”和“相当好的”免费web框架。现阶段,大量开源代码中的部分代码成为开发人员抄袭借鉴的资源。出于某些原因,例如知识版权,通常开发人员对所抄袭的代码部分并不加说明,并且会对源代码做一些不影响代码功能的修改,比如修改函数名或者变量名,打乱语句顺序,类型重定义等等。然而,部分开源代码中存在一些安全漏洞,当开发人员使用了有问题的源码,就使得完成后的程序中就自然存在这些安全漏洞。大数据时代的到来,将安全带入了一个全新、复杂和综合的时代,不安全的那些蛛丝马迹在浩瀚数据的掩护下被利用,使得黑客能精准地发起一次又一次的攻击。黑客的嗅觉是极其灵敏的,反应也极其快速。当一个漏洞被发现,当天就会有攻击产生,当天就会有针对这个漏洞所开发的工具,大范围的攻击很快就会达到一个高峰,留给安全界的反应时间非常短。在安全管理人员在日常维护中,如果能够对所管理软件是否抄袭了其他软件代码进行判断,当漏洞被发现时,就能快速排出所管理的软件是否也包含此漏洞,因此能否发现现有软件中代码是否抄袭就变的十分重要。在这个背景下,软件的同源性鉴别技术的研究变得十分关键。1 源代码同源性分析软件的同源性鉴别指将两款软件从源代码到软件功能上进行比较,找出它们是否相同或者相似,作为软件形成基础的程序源代码是进行比较和鉴别的重要依据。软件系统的源代码中存在许多相同或相似的代码片段,这些相同或相似的代码片段被称为克隆代码(clonecode),它们具有同源性。针对源代码同源性的检测技术在国内外的研究开展得非常广泛,研究重点当前集中在源代码抄袭检测技术,也就是通常所说的代码克隆检测。常见的源代码同源性检测有文本相似和功能相似两类检测技术,其中文本相似类型的检测,对应于源代码中声明、标识符、文字、变量类型、布局和注释的变化;功能相似类型检测,不考虑程序段之间由于格式或变量名的不同而引起的词法上的区别,而着重于程序段之间的结构和语义上的类似,指的是两个代码段虽然通过不同的句法或变量编程实现,但有着相似的前提或后置条件,而且能实现相同或类似的功能。检测源代码中含有的克隆代码是20世纪90年代随着软件维护问题的日益突出而出现和发展的,早期的文献包括1990年的和1992年的克隆代码检测工具Dup。90年代中期以来,特别是2000年之后,克隆代码