文档介绍:摘要随着互联网的迅速发展和广泛普及,人们越来越依赖互联网来查询所需要的信息。因为网络中大部分信息是以文本方式存放,因此人们对文本的过滤技术要求越来越高。但是,传统的文本信息过滤算法仅能实现结构对应层次上的判断,不能根据文本的上下文较好地理解文本的语义进行过滤,因而过滤的效果难以满足人们智能化的要求。本文主要结合中文信息处理知识,提出并实现了基于短文本的语义过滤算法。该算法包括对短文本分词,词性标注,句法分析,生成语义框架,计算短文本之间的语义框架相似度,短文本过滤等关键环节。利用基于多层隐马模型的分词方法对短文本进行分词,词性标注和消歧,分词和词性标注支持北大标准,标准,袷健6远涛谋镜木渥咏芯浞ǚ治觯柚锓ü嬖蚩夂途浞ǚ治信息,提取出短文本的领域,行为主体,行为动词,行为受体,时间,地点等信息,填充语义框架,按照给定的距离函数和相似度计算规则,计算短文本之间的相似度,最后根据相似度是否大于阈值决定过滤与否。此算法对短文本进行了准确度较高的分词和词性标注,并对短文本的句子进行了句法分析,句法分析充分考虑了短文本语义块的分离、句蜕和歧义等等特殊语境,然后提取语义框架,然后再将短文本之间的语义相似度的比较转换为数学架相似度调节因子,最后根据相似度阈值进行过滤。试验表明,其过滤效果较传统的过滤算法在语义理解上有较大提高。本文设计并实现了一个具有短文本语义过滤功能的代理服务器滤和语义过滤、基于蛞病⒐丶值姆梦士刂啤⑼绶梦誓谌葜叵值裙δ埽关键词:短文本语义过滤,语义框架,相似度计算,倾向性文本过滤计算,量化了短文本间的语义相似度,改进了框架相似度的计算公式,增加了框。该系统具有监控网络流量、网络层上包过滤、应用层上关键字过统运行稳定,达到了预期效果。北方荡笱妒垦宦畚
知识水坝***@pologoogle为您整理
畁痙锄嘶鷄舯琖鷄仔锄舯鷅行锄册衄鷊珊琧癿锄頲恍鬾畂甜刑鷇西鷗胁撕簍曲.,阛锄币印,,】Ⅵ曲琾,,,,鷗産缸衄,,磘瓶╠肌曲北方工业大学硕十学位论文琾..,.!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!獭!!!!R,簄簆瓸,瑃;玎瑆,甀琲
知识水坝***@pologoogle为您整理
似谢盩廿印北方工业大学硕士学位论文甋:蜟ⅱ鬿瑂
囡学位论文作者签名:孚;联罕学位论文作者签名哆;长学字嗍磁年虏签字日期:珊年士月伊独创性声明学位论文版权使用授权书签字日期:妒年峦蛉文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得韭壹王些去堂或其他教育机构的学位或证书而使用过的材料。与我一同工作的同本学位论文作者完全了解友王些太堂有关保留、使用学位论文的规文被查阅和借阅。本人授权友王些太堂可以将学位论文的全部或部分内本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。定,有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、C艿难宦畚脑诮饷芎笫视帽臼谌ㄊ导师签名:汇编学位论文。学位论文作者毕业后去向:工作单位:通讯地址:电话:邮编:■髓龋翱
课题研究的背景与意义源越来越丰富,网上信息呈爆炸式增长,人们越来越依赖互联网来查询所需要的信息。互联网为人们提供了海量的信息,诸如报纸、期刊、书籍、专利文献等等的信息过滤包括对文本、音频、图像、视频等多种信息存在形式的过滤处理,狭义和褒贬倾向等等,对文本的同义、多义和歧义现象也考虑较少,查全率和查准要求。近几年来对基于语义的文本过滤算法的研究越来越多,在文本语义结构相似层面上的过滤算法有较大突破,但是在充分考虑文本的语境、褒贬倾向和理解基于语义的文本过滤算法较大的一个应用是防火墙过滤软件。互联网为人们来越成为网络信息利用的效率瓶颈,网络用户迫切需要高效、智能的防火墙过滤随着互联网的迅速发展和在全世界范围的广泛普及,网络信息资形成网络里的一个异常庞大、具有异构性、动态性和开放性的分布式数据库,发展为当今世界上资料最多、门类最全、规模最大的信息库和全球范围内传播信息的主要渠道。如何在浩瀚如海的信息空间中,快速查找并获取所需要的信息,已经成为新的信息时代的关键问题。网络信息过滤,就是根据用户的信息需求,利用一定的工具从大规模的动态信息流中自动筛选出满足用户需求的信息,同时屏蔽掉无用的信息的过程。广义义的信息过滤特指对文本的信息过滤处理。因为网络中大部分信息是以文本方式存放,以文本的形式呈现给用户,因此人们对文本的过滤技术要求越来越高,文本信息过滤技术也成为研究的焦点。传统的文本过滤技术主要还是停留在关键词阶段,无法较好的理解文本的语率