文档介绍:信息过滤与邮件过滤
第一页,讲稿共三十一页哦
纲要
研究背景和现状
关键技术研究
实现和结构
主要工作总结
第二页,讲稿共三十一页哦
研究背景和现状
研究背景
网络跟人们的生活越来越紧密。然而网络是双面的,人们正交的,没有考虑检索词间的相互关系。概率推理模型包括了检索词间的依赖关系以及主要参数,如检索词权重计算,查询与文档相似性计算,由模型自身决定。
第十二页,讲稿共三十一页哦
关键技术研究
潜在语义索引模型
利用字项与文档对象之间的内在关系形成信息的语义结构。这种语义结构反映了数据间最主要的联系模式,忽略了个体文档对词的不同的使用风格。
LSI向量中的值是通过SVD分解得到的缩减了的值,内容相近文档的向量也是相近的。
第十三页,讲稿共三十一页哦
关键技术研究
特征选择
前面讨论的文本表示模型,一直假定特征向量每一维的特征都是确定的。事实上,这些特征是从文本中选择出来的,这些特征的选择是非常重要的,它强烈的影响到文本表示的准确程度,影响到后面的过滤器的设计及其性能。
主要包括分词与选择两部分。
第十四页,讲稿共三十一页哦
关键技术研究
分词
--文本内容与文本中出现的词关系十分密切,汉语词间没有明显的标志,分词的目的就是准确的识别文本中的单词。
基于字典的字符串匹配方法
基于统计的分词
基于句法与自然语言理解的方法
第十五页,讲稿共三十一页哦
关键技术研究
选择
--训练集中包含了大量的词汇,如果把这些词都作为特征,将带来一系列问题:首先是向量的维数太大,给计算带来了非常大的压力,存储空间大、处理速度慢。其次是这些词中实际上有很大一部分是与类别无关的,对分类作用不大,甚至存在较大副作用。常用的特征选择方法有:
文档频率
信息增益
互信息
第十六页,讲稿共三十一页哦
关键技术研究
分类算法
--其目的为找到特征空间与类别之间的映射关系。常见方法:
Racchio方法
K-元最近邻居(KNN)方法
Naïve Bayesian方法
支持向量机(SVM)方法
第十七页,讲稿共三十一页哦
关键技术研究
Racchio方法
--根据算术平均为每类文本集生成一个代表该类的中心向量,然后在新文本来到时,确定新文本向量,计算该向量与每类中心向量间的距离(相似度),最后判定文本属于与文本距离最近的类,
第十八页,讲稿共三十一页哦
关键技术研究
K-元最近邻居(KNN)方法
--给出一个测试文档,从训练文档中找出与该文档最近(用相似度度量)的k个文档,用这k个邻域文档所属的类别作为测试文档的候选类别。
第十九页,讲稿共三十一页哦
关键技术研究
Naïve Bayesian方法
--是一种概率方法,它利用先验概率的联合概率计算出后验概率,并且根据样本集构造分类标准,根据测试样本的后验概率对测试样本进行分类。
第二十页,讲稿共三十一页哦
关键技术研究
支持向量机(SVM)方法
--建立在一套较为完善的机器学习理论——统计学习理论基础之上,并具有较好的泛化能力。
第二十一页,讲稿共三十一页哦
关键技术研究
模糊模式识别
人类为了对事物进行识别,要对事物按不同要求进行分类,因此根据这种思想可以把不同事物归于不同的种类,用于这种分类的数学工具就是经典集合论。
经典集合并不能描述所有的事物,特别是涉及到与人的认识有关的概念和现象。
由于模糊性更能有效的表示“有关的”、“类似”等概念,将模糊集合的概念应用到信息过滤中 。
第二十二页,讲稿共三十一页哦
网页过滤实现和结构
系统结构
第二十三页,讲稿共三十一页哦
网页过滤实现和结构
内容过滤模块
第二十四页,讲稿共三十一页哦
网页过滤实现和结构
树状分类器
第二十五页,讲稿共三十一页哦
网页过滤实现和结构
系统流程图
第二十六页,讲稿共三十一页哦
垃圾邮件过滤实现和结构
第二十七页,讲稿共三十一页哦
垃圾邮件过滤实现和结构
提升方法(boosting)总的思想是学习一系列决策行动,在这个序列中每个决策对它前一个决策导致的错误判断例子给予更大的重视。尤其是在学习完决策行动之后,增加了由导致判断错误的训练例子的权重值,并且通过重新对训练例子计算权值,在学习下一个决策。这个过程重复T次。最终的分类器从这一系列的决策中综合得出。
朴素贝叶斯
最小风险贝叶斯
最小风险贝叶斯算法的提升
第二十八页,讲稿共三十一页哦
总结
系统主要在以下几个方面进行了研究和实现:
由于传统的URL过滤技术会导致网络访问速度特别慢,因而本系统高速缓存技术引入到URL过滤技术中提出了一种改进的URL过滤技术。传统的URL过滤一般是基于静态URL数据库,灵活性差,