文档介绍:山东师范大学信息科学与工程学院 2007-01 2纲要?研究背景和现状?关键技术研究?实现和结构?主要工作总结 3研究背景和现状?研究背景–网络跟人们的生活越来越紧密。然而网络是双面的,人们在享受网络所带来的便利的同时,不可避免地接触到大量的不良信息。–过滤网络信息,使网络用户尤其是青少年学生远离非友善信息的侵扰,使得网络环境更加纯净、美好。–过滤掉用户不感兴趣的网页信息和垃圾邮件,可以节省用户的上网时间。 4研究背景和现状?研究现状–当前信息过滤的研究以 TREC 会议为核心, 主要是文本过滤。–国内有关信息过滤的研究以核心算法为主, 主要集中在特征抽取、学习算法和过滤算法上。–出现了一些过滤软件,但存在较多问题,过滤效果不佳。 5关键技术研究?现有网络过滤技术及其存在问题?网络过滤新技术研究 6关键技术研究?现有网络过滤技术及其存在问题–断开物理连接?资源有限,更新速度慢,多半是过期的网页–地址库( URL) 过滤?需要不断更新地址库–基于关键字的页面内容过滤。?易被伪装技术突破?过滤往往矫枉过正 7关键技术研究?网络过滤新技术研究--针对内容进行过滤反馈更新用户信息及过滤需求用户需求文档被描述信息信息用户相关信息图2-2 :信息过滤模型(d) 学习过程用户(c) 用户需求信息(b) 过滤处理(a) 信息分析器信息提供者8关键技术研究?关键技术–文本表示–特征选择–分类算法–模糊模式识别 9关键技术研究?信息表示( 文本表示) 信息过滤的主要工作是比较用户请求信息和要过滤的非法信息的匹配程度,为此,需要能够有效地表示信息空间,一般采用模型化的方法表示信息空间。目前常用的文本表示模型有: –布尔逻辑模型–向量空间模型–概率推理模型–潜在语义索引模型 10 关键技术研究?布尔逻辑模型–一种相对简单的信息过滤模型。在过滤时, 它以文档中是否包含特征项来作为取舍的标准。–特点是实现容易、操作方便–结果非真即假,限制性过强