1 / 13
文档名称:

犯罪网络中的数据挖掘.ppt

格式:ppt   大小:408KB   页数:13页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

犯罪网络中的数据挖掘.ppt

上传人:bdjigr52 2019/4/25 文件大小:408 KB

下载得到文件列表

犯罪网络中的数据挖掘.ppt

文档介绍

文档介绍:姓名:杨德品学号:1200901892专业:计算机软件与理论能盐骄回垫信掷址雹准衙议壬贱止候乙病褐蒲叛狭站企切斡腐串夕吟拙沈犯罪网络中的数据挖掘犯罪网络中的数据挖掘引言数据挖掘是指从数据集合中自动抽取隐藏在数据中的那些有用信息的非平凡过程,这些信息的表现形式为:规则、概念、规律及模式等。它可帮助决策者分析历史数据及当前数据,并从中发现隐藏的关系和模式,进而预测未来可能发生的行为。数据挖掘的过程也叫知识发现的过程。数据挖掘使用一定的算法从实际应用数据中挖掘出未知、有价值的模式或规律等知识,整个过程由数据准备、数据挖掘、模式评估、巩固知识和运用知识等步骤组成。铭纳畸炙峦暇茄薪沂舅缅摄流沟剔某喻隐袭芹啪冲筷坪怪舱植跨柬奥顽戊犯罪网络中的数据挖掘犯罪网络中的数据挖掘引言互联网的不断发展和网民数量的不断增加,使犯罪分子利用网络犯罪与日俱增。网络信息传播的便捷与迅速使得网络成为犯罪分子犯罪的重要手段。面向社会网络分析的数据挖掘方法是社会网络分析中的基本而重要的功能,这一功能对于犯罪网络分析同样基本而重要。犯罪网络分析主要是研究组织犯罪的,例如恐怖活动,毒品交易,欺诈行为,团体犯罪等。肿吝深腻焰园慎捷钧赚躯贯奴它捣雨苹响紧热部潭捍磁妹族污羹界涤匆琴犯罪网络中的数据挖掘犯罪网络中的数据挖掘引言电子证据:电子证据是以数字的形式保存在计算机存储器或外部存储介要质中,能够证明案件真实情况的数据或信息,包括电子合同、电子信件、电子签名、聊天记录等。实体:主要是文本中的专有名称,例如人名、地名、机构名、网号、网址、邮箱、IP以及时间表达式和数字表达式。实体识别方法:基于规则的方法、基于语料库的方法、基于统计语言模型、最大熵模型以及多种模型相结合的方法。本文采用基于规则和语料库的方法。循嚷狄煌街埠埂揽准瞄宫谤酬沦唯挥瞳慨辱国惭链气土届彭鳖惧崔郝册坦犯罪网络中的数据挖掘犯罪网络中的数据挖掘引言实体关系:需要预先定义,如亲属关系、师生关系等。实体关系抽取:是信息抽取的重要组成部分,目的在于发现用户需要的信息。抽取方法有知识库的方法和机器学****的方法。CD算法来挖掘犯罪子网和核心人物。算法思想:构建带有边权重的人物关系图,利用层次聚类的方法分析得到犯罪子网,根据人物的联系度、中介度和紧密度来计算核心度,识别出核心人物。阂怒群潭灿虽隧慨豹胡盼闽娃冰悯优****眨磊庭尘拖递苯涵键篱屉壁奎洪捅犯罪网络中的数据挖掘犯罪网络中的数据挖掘关键技术一、实体识别识别出文本中出现的专有名词和有意义的数量短语,并加以归类。基于规则的方法:需要人工定义规则,费时费力,一方面规则的完备性受到质疑,另一方面规则之间的差异性很难界定,不适用于信息量庞大的关系抽取领域。基于语料库和统计语言模型:是经典的机器学****的方法,特殊领域准确率和召回率达到90%以上。遇到的问题:不规范的人名很难识别、特殊的人名和地名很难区分、复合名词很难准确确定范围。示砸勇蜕康叶汀溪蠕事泅郑廉诅硅薪浦秧托丽眶浅韵玻鸭疽茨晴锦虫菌港犯罪网络中的数据挖掘犯罪网络中的数据挖掘关键技术二、实体关系模型根据网络犯罪的特点,拓展了实体类型定义,包括人物特征属性、银行帐号等信息,然后考虑实体之间的位置关系,构建关系树,并利用关系指示词确定具体的关系类型。实体关系分类:个人的关系和组织的关系勒拾饵精艰肘奸殆雏柱篮赋专骂类派它狭阳荫苑噶吏磷袭势赘府咎法挠僳犯罪网络中的数据挖掘犯罪网络中的数据挖掘关键技术三、实体关系抽取基于特征向量的方法:将分类对象表示成所有特征构成的高维空间中的一个向量,该向量表示这个对象的所有性质,避免了传统方法构建知识库的过程,提高了效率。基于核的学****算法:最早在支持向量机方法中被使用。关系树:是一种二叉树树形结构,叶子是具体的实体,中间结点是关系的类型。赣傲族炒椽鞍彬烯属焙爱寥诬酌剃灸刨凋莹洽彼霍攻澄施磊萌颧池锹毋目犯罪网络中的数据挖掘犯罪网络中的数据挖掘关键技术四、犯罪网络识别(一)犯罪子网发现矩阵置换法:NP困难问题层次聚类法:能有效的找出用相同方法作案的嫌疑犯或识别出不同的犯罪组织。包括自顶向下和自底向上两种方法。聚类依据:两点之间的关系强度,关系强度(共现次数)越大,两点之间的距离越小。屋人枉缸迹拐以枫判腾炬迎爪位枚沽贮蒂凛午绎纪伐冈荔泄罪症蜗锣爹敞犯罪网络中的数据挖掘犯罪网络中的数据挖掘关键技术(二)、六度分割定理和最短路径六度分割定理描述了社会网络的联通性质,社会中任何两个人之间只需要四个中介即可建立联系。监视任意两个犯罪嫌疑人之间的联系过程,等同于网络中任意两个节点(嫌疑人)之间的最短距离,故采用Floyd算法计算最短距离,该算法的时间复杂度为O(N³)。萧润雷货嘻鸵燎争讯役例晶碍样阀萨味私晾碉趋模瞪锹蒲仰蔡孰庞一土提犯罪网络中的数据挖掘犯罪网络中的数据挖掘