文档介绍:苏州大学
硕士学位论文
一个WEB文本过滤系统设计与实现
姓名:沈凤仙
申请学位级别:硕士
专业:计算机应用技术
指导教师:朱巧明
20090501
一个谋竟讼低成杓朴胧迪中文摘要随着互联网的快速发展,网络上的信息呈爆炸式增长,文本信息过滤技术的研究取得了很大的进展,谋拘畔⒐思际跻殉晌R桓鲅芯咳鹊恪1疚脑谇捌诳翁控制网关的研究基础上,为了提高该计费网关对公共信息网络服务的综合监管能力,通过研究率凳蹦谌莨撕臀谋竟说认喙丶际酰杓撇⑹迪至艘桓龌于控制网关的谋拘畔⒐讼低场现方式。系统由中央预警模块统一管理、在线过滤和离线过滤相结合。分布式数据库的同步借鉴路由协议中数据库同步算法,实现全网过滤信息的通用性。实时在线过滤模块,包括了数据包预处理和基于地址及关键词过滤两个子过程。数据包预处理过程主要针对趁娼惺莘治龊徒峁狗治觯馕龀稣返页面数据信息;基于和基于关键词的过滤过程,采用了哈希树结构来组织黑名离线过滤模块对正例类和不确定类做进一步的离线分析,更新实时在线过滤模块的黑名单列表和过滤关键字列表。离线过滤采用改进的特征词提取算法和改进的过滤策略。改进的特征词提取算法,综合考虑了特征词长、网页结构特征和词汇的感情色彩等;改进的过滤策略过滤初期采用惴ǎ泻笃诓捎酶慕淖允视δ0过滤法。模板的更新采用改进的模板系数调整策略,并引入特征衰减因子来提高过滤实验表明,本文提出的方法既能保证内容过滤分析和数据报流通相互独立,又能关键词:网页过滤,在线过滤,离线过滤,自适应信息过滤,语义倾向者:沈风仙指导老师:朱巧明本文首先给出了系统总体框架以及设计目标,并提出了一种分布式过滤系统的实单列表和缓存拼接策略存储过滤内容,关键词过滤结合统计信息综合判定。的准确率。提高在线过滤的速度和过滤的正确率。作
.——猙·、撕.,,
篧琒—.
研究生签名:该簇桔蹋瓻冢研究生签名:芸舟蘀冢苏州大学学位论文独创性声明及使用授权声明学位论文独创性声明’学位论文使用授权声明本人郑重声明:所提交的学位论文是本人在导师的指导下,独立进行研究工作所取得的成果。除文中已经注明引用的内容外,本论文不含其他个人或集体已经发表或撰写过的研究成果,也不含为获得苏州大学或其它教育机构的学位证书而使用过的材料。对本文的研究作出重要贡献的个人和集体,均已在文中以明确方式标明。本人承担本声明的法律责任。苏州大学、中国科学技术信息研究所、国家图书馆、清华大学论文合作部、中国社科院文献信息情报中心有权保留本人所送交学位论文的复印件和电子文档,可以采用影印、缩印或其他复制手段保存论文。本人电子文档的内容和纸质论文的内容相一致。除在保密期内的保密论文外,允许论文被查阅和借阅,可以公布ǹ论文的全部或部分内容。论文的公布刊登谌ㄋ罩荽笱а话彀炖怼导师签名:期:
第一章引言课题背景与意义随着互联网的迅猛发展,“信息过载侍馊找嫱怀觥R环矫妫嗣窃谙硎芩需要的内容,无异于大海捞针。另一方面,互联网上信息良莠不全,一些涉及反动、色情、暴力等不良内容的信息也在网上传播,这些都时刻威胁和侵扰人们的信息安全。要任务之一。如何能够更有效、更准确地找到自己感兴趣的信息,滤除与自己的需求无关的网络信息或有害信息己成为基于缧畔⒐说牡蔽裰保捎眯畔与此同时,随着计算机科学技术的日益进步,人们对信息处理技术提出了更高的擎时,只要使用的关键词相同,所得到的结果就相同,它并不考虑用户的信息偏好和用户的不同,对专家和初学者一视同仁,同时返回的结果成千上万良莠不齐,使得用户在寻找自己喜欢的信息时如大海捞针;缧畔⑹嵌浠模没背9匦这种变化。而在搜索引擎中,用户只能不断地在网络上查询同样的内容,以获得变化的信息,这花费了用户大量的时间。因此,在现有情况下,传统的信息查询技术已经难以满足用户的检索需求,对信息过滤技术的研究日益受到重视。另外,尽量减少无效数据的传输对于节省网络资源、提高网络传输效率具有十分重要的意义。通过信息过滤,可减少不必要的信息传输,节省费用,提高经济效益。所有以上这些,都促使人们对信息过滤技术进行深入的研究和推广。信息过滤技术作为上述问题的有效解决方法:梢韵蛴没е鞫峁└鋈擞胄巳は喙氐男畔ⅲ嗣舾行孕畔如国家安全、暴力、色情和反动信息等O啾却车墓思术,新的自适应过滤技术不需要大量初始训练文本,同时在过滤过程中不断进行学习来提高过滤精度,因此更适应于肪车墓艘G蟆来方便快捷的同时,也被其包含的海量信息所淹没,要在浩瀚的信息资源中找出自己屏蔽这些非法的不良信息,保护用户的信息安全和合法权益,成为当前信息时代的重过滤的方法有选择性地传播和利用信息变得越来越重要。要求。以搜索引擎为主的现有网络查询技术受到了挑战,网络用户的检索需求与现有的信息查询技术之间的矛盾日益尖锐,其不足主要有如下两