1 / 40
文档名称:

姓名朱凯.ppt

格式:ppt   页数:40页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

姓名朱凯.ppt

上传人:baixue 2013/5/22 文件大小:0 KB

下载得到文件列表

姓名朱凯.ppt

文档介绍

文档介绍:姓名:朱凯
学号:S310060016
内容安全技术
文本过滤、话题发现和跟踪
文本过滤
话题发现和追踪
文本是最常出现的应用层数据形式之一。文本过滤属于被动的内容安全技术,它不仅可以用于防火墙,也适用于阻止垃圾邮件,防范信息泄露,搜索网络敏感内容,这些应用也需要从截获或搜索到得数据中发现特定的文本内容或对文本进行分类,执行相应的安全策略。
文本过滤
文本过滤
最简单的文本过滤方法采用关键词查找,通过文字串匹配算法确定文本是否包含某些特定的词,进而确认文本类别。当前,研究人员提出了很多串匹配算法,提高了匹配效率,但是,由于各个关键词的重要程度不同或他们之间的关联方式不同,发现他们的存在往往不能判断文本的特性。典型的,当系统发现一个文本包含一些不良词时,往往不能准确判断文章是从正面或从反面的角度使用这些字词,为了实施正确分类,系统可能需要知道不良词出现的频率、它们之间的关联。
文本过滤
分词
内容分类
特征提取
分词
分词是将文本语言分解为词。在英语、法语等西方语言中,空格是单词之间的分隔符号,因此计算机比较容易对西文文本分词。而中文由互相之间没有分隔的字组成,单词仍然是表达含义的单位,一个中文词包括的字数不等,因此,中文分词的目的是要将文本文字分割成具有独立含义的词。分词不但用于分解实例文本,也用在实际过滤中分解待过滤的文本。
整词二分法
分词词典
基于逐字二分法
Trie索引树法
整词二分法
005
089
……
239
……
783
……
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.

.
.

.





啊呀
啊哈
啊哟
啊喂

阿Q
……
肝炎
首字哈希表
第一项指针
词索引表
词典正文指针
词典正文
分三级:首字哈希表,词索引表,词典正文。
Trie索引树法

•类似于整词二分的首字哈希表。它的一个单元是所对应汉字的索引树的根结点。

•关键字:单一汉字;
•子树大小:以从根结点到当前单元的关键字组成的子串为前缀的词的个数;
•子树指针:子树大小非0时,指针指向子树;否则指向叶子。
Trie索引树法
005
089
……
239
……
783
……
.
.
.
.
.
.
.







……
2
1
5
……
^




0
0
0
0
0
.
.
.
.
.
大白菜
大白话
大白天
大白鼠
大白
首字散列表入口项个数
第一项指针
关键字
子树大小
子树指针
大坝

最近更新

[精编]数字逻辑电路课程设计bit模加法器HDL实.. 62页

【浙教版】2022年九年级数学(上)期末复习解答.. 8页

专业技术人员考试题库 25页

中国人民银行关于下发《关于改进金融服务、支.. 9页

中期财务报告的编制要求及原则(五篇范文) 25页

乌兰察布市人民政府办公厅关于印发《乌兰察布.. 15页

产品设计·笔记本散热设计及散热方式概述整理.. 5页

人教版八年级下册物理第八章运动和力综合试题.. 9页

缺血性肠炎的护理ppt 23页

企业安全管理表格大全 62页

作文开篇技巧交代式 9页

概率的进一步认识习题 15页

创意策划书模板(4篇) 27页

动物病原微生物菌(毒)种保藏管理办法(2022.. 7页

前循环缺血护理查房ppt 24页

医保报销,何时开始“全国漫游” 4页

南开大学超星尔雅学习通“计算机科学与技术”.. 10页

发布会领导致辞稿6篇 11页

吉林省长春汽车经济技术开发区第一小学2022-2.. 13页

品质文员岗位职责描述(共7篇) 23页

四川省人民政府办公厅关于进一步加强林地保护.. 5页

回访母校实践报告3篇 11页

土木工程施工技术试题库与答案 附答案 18页

基础卷:2022-2023学年八年级道德与法治上学期.. 8页

套管成孔灌注桩施工方案 8页

宁夏回族自治区人民政府办公厅关于印发自治区.. 7页

尿毒症的护理常规及注意事项ppt 15页

2024年信息系统管理工程师下午试题及答案 60页

多功能组合机床时代中英文翻译、外文文献翻译.. 8页

球阀注脂嘴泄漏分析及处置方法探讨 5页