文档介绍:中文图像文档高速过滤中的关键技术研究没有自然间隔,中文图像文档过滤有自己的特点,并不能完全照搬英文图像文档过滤的方法。图像文档过滤系统有两个重要的特征:第一,析要求有非常高的实时要求。第二,它需要尽可能早地发现匹配的规岢隽艘恢侄嗄0迤ヅ浣岷峡尚哦确治龅闹形耐枷裎牡倒朔法,克服了传统俣嚷娜钡悖备纳屏嘶谕枷裉卣髌配方法对字体和噪音敏感的特性。通过粗特征和细特征两阶段过滤,在提高速度的同时,保证了识别的准确度。采用字符串匹摘要文件的激增,图像文档已经是无处不在,但互连网上众多图像文档却不能直接利用现有的文本过滤技术。传统椒ㄊ紫劝淹枷裎牡底;怀文本文件,再利用现有的文本过滤技术分析处理。由于目前际存在处理时间长,误识率高等缺点面不适合对动态信息进行处理。图心之人躲避网络实时监控的方便之门。巨大的应用需求追切需要一套适合中文图像文档过滤的理论和方法。由于汉字较英文字母结构更加复杂,字符数量庞大,词与词之间它需要实时的处理网络数据流,在高速网络环境下,对文档内容的分则,一旦发现满足任何一条规则,则可以立即终止内容分析,这与一般信息过滤中需要对整个文档全部处理后再执行判断是不同的。目前图像文档过滤广泛使用的方法是关键词搜索。本文的主要成果包括:配方法,减少了特征抽取的次数,有效的减小了计算量,加快了关键词识别速度。可信度分析提高了识别的正确率。处理速度的是指以图像的方式保存的文本信息,通常由扫描的方式或者通过软件把纯文本转换为图像获得。可包括各类图像格式琯,等,各类募袷剑约巴枷裱顾/琂琂等。由于计算机和桌面扫描仪数量像文档过滤已成为互连网信息安全的瓶颈和死角,也成为一些别有用图像文档
知识水坝***@pologoogle为您整理
方法通过提取整词简单图像特征与模板相似匹配比较作为确认是否为关键词的手段,可以解决字符切分可能带来的误差等棘手问之后进行性判别分析既可以有效降维,又可提高分类精度。对图谧址嗨破ヅ渌惴ㄌ岢隽艘恢中碌拇势ヅ涞墓丶使朔法。由于质量低下的图像文档可能造成切分错误,使以字为单位的关键词搜索方法无法正确地识别出来。以词为单位可以减少切分错误带来的影响,模糊字符匹配方法使这种设想成为可能。该岢隽艘恢只谝杂镆逅饕拖咝耘斜鸱治龅奈牡登阆蛐耘斜性判别分析计算量十分巨大。隐性语义索引是将多维特征映射成低维特征的一种方法,能最低限度地减少信息的丢失。但是隐性语义索引所提取的特征并不是最优分类特征。而在隐性语义索引像文档过滤关键词自动选择有重要意义。关键词:。借鉴语音关键词识别,提出了图像文档关键词垃圾模型。首先通过动态聚类方法将个常用汉字按特征相似度分成不同的类,并抽取各类的平均特征作为类特征。含有关键字的类称为关键字类,不含关键字的类称为垃圾类。当对待检字进行判定时,通过粗特征计算待检字与各类的距离尺度,用以判别待检字的归属类。若待检字属于关键字类,则进~步用细特征对关键字及其相似字进行类内确认。否则待检字属于垃圾类,不再进行处理。此方法解决了直接匹配判别条件及可信度分析所存在的问题,提高了识别准确度。方法。由于练数据生成的词一文档矩阵维数很高,直接应用线提升,为过滤系统的实用化创造了条件。数量也比较大。充分利用这些已知信息,可以加快在线实时处理题。
知识水坝***@pologoogle为您整理
.。簟続猵,....琣
...,瑃琻甌:—:,瓽
.甒...甌.,甌,·瑃
曲,.
蝥:燮亟型堑翅逐停骸±А辏褐鳎竺关于论文使用授权的说明创新性声明本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不包含其他人已经发表或撰写过的研究成果,电不包含为获得北京邮电大学或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任申请学位论文与资料若有不实之处,本人承担一切相关责任。本人签名:学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规定,即:研究生在校攻读学位期间论文工作的知识产权单位属北京邮电大学。学校有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许学位论文被查阅和借阅:学校可以公布学位论文的全部或部分内容,可以允许采用影印、缩印或其它复制手段保存、汇编学位论文。本学位论文不属于保密范围,适用本授权书。导师签名:日期:何贡献均己在论文中作了明确的说明并表示了谢意。≥£:£生
第一章绪论引言网络内容分析过滤系统拦截用户在网络中传输的数据包,立即对数据包中的内容进行分析,如果信息内容是不希望传输的,则终止用户这次数据传输,否则,转发正常的数据。网络内容分析过滤系统有两个重要的特征:第